Rapport d'avancement du projet :
"Extraction de connaissances des bases
de données spatiales en accidentologie routière"
|
|
Edition de Septembre 1999
|
Karine Zeitouni, Laurent Yeh
Laboratoire PRiSM - Université de Versailles
Karine.Zeitouni@prism.uvsq.fr
yeh@prism.uvsq.fr |
Sylvain Lassarre
DERA - INRETS
lassarre@inrets.fr |
Florence Huguenin-Richard,
THEMA - Besançon
florence.huguenin-richard@univ-fcomte.fr |
Azedine Boulmakoul
LIST, FST - Mohammedia
bool1@caramail.com |
| Mots Clés :
Bases de données spatio-temporelles,
Data mining spatial,
Accidentologie routière,
Analyse statistique du risque,
Analyse spatiale du risque
|
Problématique :
Le contexte de ce projet est l'analyse du risque d'accidents de la
route. Le risque est estimé à partir de bases de données
localisées sur les accidents corporels de la circulation, répertoriés
par la gendarmerie. Cette analyse est de nature statistique, mais n'utilise
guère, pour l'instant, la composante spatiale et le lien avec le
voisinage. Or, l'analyse de la répartition spatiale et des interactions
avec l'environnement géographique pourrait révéler
des phénomènes locaux (des points noires) ou des règles
explicatives sur l'occurence des accidents.
L'objet du projet est donc d'appréhender l'accident par son environnement.
Partant des données sur les accidents et d'autres informations urbaines
- le réseau routier, les découpages administratifs, la population,
etc.- l'analyse spatiale permet de découvrir les regroupements,
les propriétés caractéristiques ou les relations spatiales
intéressantes parmi ces données.
Méthodes :
Les données sur les accidents, comme c'est le cas des données
thématiques en général, sont constituées de
données attributaires auxquelles est rattachée une localisation
spatiale. L'analyse de données (uni et multi-variées) a été,
jusqu'à présent, largement appliquée sur la seule
partie attributaire de ces données. L'état de l'art sur l'analyse
de données spatiales a montré qu'il existe par ailleurs des
travaux sur la prise en compte d'une structure spatiale dans l'analyse
de données [Benali 90, Lebart 97], comme l'analyse factielle sous
contraintes de contiguïté et le test d'autocorrélation
spatiale (indices de Geary et Moran) [Cliff 73, Ord 92, Ord 95]. D'autres
travaux explorent les localisations (semis de points) pour découvrir
des densités, des tendances ou des concentrations [Fotheringham
96, Openshaw 87, Openshaw 95]. Enfin, des approches plus sémantiques
intègrent des connaissances de l'expert (hiérarchies de concepts)
et/ou exploitent les relations spatiales (graphe de voisinage) [Ester 97,
Ester 98] dans des méthodes de data mining sur bases de données
spatiales [Lu 93, Koperski 95, Han 97, Koperski 98] .
Dans l'état actuel, ces méthodes d'analyse spatiale ont
été peu ou pas du tout appliquées à l'accidentologie
routière. Le premier objectif est de les évaluer et de les
mettre en oeuvre dans le cadre de ce domaine d'application. Plus généralement,
nous visons à regrouper et à intégrer dans un processus
d'extraction de connaissances des méthodes provenant de domaines
de recherches différents (analyse de données et bases de
données spatiales). Cette démarche est applicable quelque
soit la base de données spatiale à analyser. Enfin on vise
également à adapter, améliorer ces méthodes
et en proposer des nouvelles.
Réalisation :
Après une durée de près d'un an de ce projet,
en voici les réalisations :
-
Un état de l'art sur le data mining spatial [Zeitouni 99a] ainsi
que différentes études sur les semis de points et sur la
thématique de l'accidentologie routière.
-
L'étude et le prototypage de plusieurs méthodes et algorithmes
dont voici la liste (une description plus détaillée est donnée
dans la suite du document) :
(i) la généralisation et la caractérisation de
données spatiales [Baghdadi 99],
(ii) la génération de matrices de voisinage [Zeitouni
99b] ,
(iii) la jointure spatiale sur critère de distance [Yeh 99],
(iv) l'estimation de densités [Banos 99a],
(v) La recherche de concentrations locales anormales d'accidents [Banos
99b],
(vi) l'autocorrélation spatiale locale.
-
L'organisation d'un séminaire (du 19 au 23 Juillet 1999) où
ces méthodes ont été présentées et démontrées.
Les dernières méthodes relèvent de l'analyse exploratoire
de données spatiales, quant aux premières elles sont du domaine
de l'apprentissage et des bases de données. A l'issue de ces travaux
nous avons pu esquisser un rapprochement des méthodes issues de
ces deux domaines, permettant ainsi de les combiner dans un processus de
data mining sur les données spatiales.
Le projet s'appuie sur les données géographiques de la
communauté urbaine de Lille (CUDL). En effet, ces données
concernent une étendue géographique conséquente, une
variété de composition urbaine et péri-urbaine et
des renseignements intéressants reportés dans la base de
données rendant l'extraction de connaissances spécialement
intéressante. Hormis le thème des accidents décrivant
des localisations ponctuelles, la base comprend un thème détaillé
sur la voierie, les découpages administratifs ainsi que des entités
de l'environnement urbain comme les voies ferrées, les édifice
publics et religieux, les centres commerciaux ou les espaces verts (comme
le montre la figure ci-dessous).
Les développement ont été faits dans différents
environnements (Windows et Unix) et avec différents logiciels (SIG
ArcView, Splus, XLisp-Stat., ADE).
Description des méthodes
développées et premiers résultats d'analyses :
(i) la généralisation et la caractérisation de
données spatiales
Une des tâches importantes du data mining est de décrire de
manière synthétique les données. Les méthodes
de généralisation et de caractérisation ont été
développées à cet effet. Comme elles interviennent
au début du processus d'analyse, nous les avons mis en oeuvre en
priorité et étendu pour notre type d'application.
La généralisation spatiale
La généralisation constitue un moyen efficace pour résumer
le contenu de la base. Dans le domaine des bases de données relationnelles,
elle se base sur la notion de hiérarchie de concepts (comme les
concepts de semaine et de week-end de plus haut niveau que les jour de
la semaine -cf. figure- ) et utilise l'induction pour produire automatiquement
le niveau de détail souhaité [Han 92]. Cette méthode
a été étendue aux base de données spatiales,
où elle utilise en plus une hiérarchie spatiale (comme la
relation d'inclusion de la figure ci-dessous) par analogie avec les hiérarchies
de concepts [Lu 93]. Il en découle deux algorithmes selon l'ordre
d'utilisation de ces deux type de hiérarchies.
Hiérarchie de concepts
|
Hiérarchie spatiale
|
L'application à notre base de données spatiale a prouvé
son importance dans le d'analyse comme résultat final (la figure
ci-dessous montre la généralisation d'accidents selon les
hiérarchie de date et de luminosité), que ce soit pour découvrir
des règles pertinentes (comme la caractérisation [Ester 98])
ou pour réduire le nombre de modalités dans une analyse factorielle
ou encore en changeant d'échelle d'analyse en agrégeant les
propriétes des accidents au niveau des tronçon de route,
des quartiers ou des communes. Cette application soulève néanmoins
quelques questions qu'il a fallu étudier et résoudre, comme
la généralisation de données ponctuelles, la définition
ou le calcul de hiérarchies spatiales (relation tantot préexistante
dans le schéma de la base, tantot calculée par requête
spatiale) et enfin la généralisation de données numériques.
Un autre apport concerne le type d'agrégation suite à
l'induction, comprenant des expressions quelconques et non limités
au comptage de la méthode originale. Enfin la transformation du
résultat en tableau de contingence en vue d'une analyse de correspondances
et la cartographie du résultat.
La caractérisation
Une autre approche pour synthétiser les données spatiales
est de déduire de règles caractéristiques de la partie
de la base à analyser [Ester 98]. Ces règles sont définies
par les propriétés qui sont plus fréquentes dans un
sous ensemble de la base de données relativement à leur férequence
dans le reste de la base. La spécificité de ces règles
caractéristiques en base de données géographiques
est qu’elles découvrent en plus de la fréquence de ces propriétés
leur niveau d'extension aux voisins. Pour cela, elles nécessite
la définition d'un graphe (ou matrice) de voisinage (voir le point
(ii)).
Plus précisément, étant donné un sous-ensemble
S d’objets à analyser, les paramètres (i) de signifiance
(c’est à dire le seuil de fréquence relative (à la
BD) dans S), (ii) de confiance qui donne la proportion d’objets dans S
qui satisfont le seuil de signifiance dans leur voisinage et (iii) l'extension
maximum aux voisins, cette méthode découvre les propriétés
pi = (attribute, value), la fréquence relative (au-dessus du seuil
de signifiance) et le nombre ni de voisins auxquels s’étend cette
fréquence de la propriété. La caractérisation
peut s’exprimer par une règle :
S -> p1(n1 , freq1 ) et ... pk(nk , freqk )
Un exemple dans notre application est de caractériser les accidents
mortels par rapport à l’ensemble des accidents ? La méthode
trouve qu'ils se produisent plus fréquemment la nuit et le week-end
et que les causes sont humaines ou indéterminées. Cette dernière
propriété s'étend aux voisins, ce qui veut dire que
localement, la zone ou se produisent ces accidents graves, il se produit
beaucoup d'accidents (pas forcément mortels) de cause indéterminée.
Ce qui laisse croire qu'il y aurait peut-être d'aménagement
routier. Cette méthode est complémentaire de la recherche
de concentrations locales développée dans le point (v). De
plus, elle s'applique à tout type d'objets et pas seulement aux
ensembles de points.
(ii) la génération de matrices de voisinage
Les données géographiques sont caractérisées
par des relations spatiales, le plus souvent implicites, mais qui ont une
grande importance dans l’analyse. Pour déterminer ces liens, on
doit mettre en oeuvre des jointures dites spatiales car elles se basent
sur un critère spatial. La résolution de ces opérateurs
se confronte à des problèmes de performances accrus car elle
met en jeu des opérations géométriques complexes et
opère sur des volumes importants de données. D’ailleurs,
rares sont les SIG du commerce qui offrent de véritables opérateurs
de jointures.
Ce sujet a fait l’objet de différents travaux, essentiellement
pour le critère de recouvrement (ou map overlay) [Chrétien
94, Brinkhoff 94] . Des travaux plus récents ont concerné
la jointure basée sur un critère de distance [Lu 92]. Mais
d’autres critères sont également intéressants, tels
que la contiguïté ou l’inclusion stricte [Rotem 91, Gunther
93].
Nous proposons une méthode unique permettant d’optimiser à
la fois des jointures sur critère métrique et topologique.
L’idéee est de constituer un index, extension de l’index de jointure
[Valduriez 87] avec pré-calcul des distances entre objets, puis
de s’en servir comme filtre lors des requêtes de jointures spatiales.
En effet, toutes ces requêtes pourront être résolues
par simple sélection dans l’index. D’où l’optimisation des
performances par rapport à un algorithme direct. Bien évidemment,
il n’est pas utile de stocker les distances entre objets très éloignés.
Seuls les objets ayant une distance raisonnable (définie par le
concepteur de l’index) sont stockés dans l’index. Ce qui optimise
à la fois la construction, le stockage et la recherche dans l’index.
Cette structure présente plusieurs intérêts, particulièrement
dans l’application au data mining spatial. D’un côté, elle
s’applique à différents types de jointures (et pas seulement
au map overlay comme le font d’autres travaux). Ainsi, on peut calculer
efficacement les relations topologiques de contiguité ou d’inclusion,
ou métriques sur critère de distance. D’un autre côté,
elle correspond aux structures exploitées dans les algorithmes de
data mining spatial, à savoir, la " matrice de contiguité
" dans l’approche analyse de données [Lebart 97, Mathsoft 98] ou
au " graphe de voisinage " dans l’approche base de données spatiales
[Ester 97]. Ceci revient à représenter le résultat
sous forme d’index et donc à éviter la matérialisation,
coûteuse et pas toujours nécessaire, de la jointure spatiale.
Cette matérialisation reste néanmoins possible si l’utilisateur
la souhaite.
En outre, une attention particulière a été portée,
dans l’implémentation, au paramétrage du critère de
jointure. Ainsi, pour le calcul de distance on peut choisir entre la distance
centre à centre, bord à bord, ou par le plus court chemin.
On peut se restreindre à un rayon (à moins d’une distance
donnée) ou dans un anneau (entre deux distances données).
On peut aussi rechercher les k plus proches voisins au sens de ces distances
(permettant la segmentation en "groupe d'objets proches"). Quant aux relations
de voisinage, elles peuvent être considérées à
différents degrés (voisins directs, voisins de voisins, ainsi
de suite).
Plusieurs algorithmes ont été implémentées
pour les tests de performances : un algorithme naîf par produit cartésien,
un algorithme direct qui remplace le parcours d’une relation par l’accès
par index spatial, un algorithme intégrant la construction de l’index
de jointure et enfin l’algorithme de jointure avec index pré-construit.
Les mesures ont porté sur des volumes de données allant d’une
centaine de tuples jusqu’à 30000 tuples pour différents critères
(ici, la figure correspond à la jointure sur critère de distance).
L’algorithme naif a été écarté dès les
premiers tests en raison de son coût exorbitant (70 mn au lieu de
3mn pour l’algorithme direct).
Les autres mesures de performances (voir figure ci-dessous) montrent
le gain considérable obtenu par la jointure avec index précréé
par rapport à l’algorithme direct. En effet, tout l’intérêt
de l’index est d’être créé une fois pour toutes pour
être exploité plusieurs fois par des opérateurs invoqués
fréquemment. L’essentiel est donc de réduire le coût
de l’opérateur lorsque l’index est préexistant. Néanmoins,
nous avons cherché à éviter des coûts exorbitants
de construction de l’index en utilisant une variante de l’algo direct.
Par conséquent, comme le montre la figure, cette étape n’introduit
presque pas de surcoût (différence entre algo direct et algo
index qui intègre la création de l’index).
(iii) la jointure spatiale sur critère de distance
Dans le cadre de l'analyse spatiale et le data mining, la composante distance
permet de voir l'influence d' un groupe d'entités sur un autre groupe.
Ce critère spatial est donc important pour comprendre les interactions
spatiales pouvant exister et extraire de nouvelles connaissances. Dans
notre exemple d'application, l'analyse sur les localisations d'accidents
(formées de points) constitue une part imporatantes du processus
de data mining spatial. D'où l'intérêt de la jointure
spatiale basée distance.
Pour optimiser l'opérateur de jointure basé distance sur
données ponctuelles, nous avons développé une approche
basée sur les indices de jointures. Cette approche consiste à
aggréger sur un niveau les entités dans des "spots". Il est
alors possible de calculer la distance entre les spots afin d'élimier
certains calculs de distances des entités contenus dans les spots.
Une structure de données adaptée sur disque a été
proposée pour réduire le volume de données calculé.
Des mesures de performances sur des données d'accidentologie ont
montré la viabilité de l'approche. Cette approche se conçoit
comme un accélérateur pour extraire d'une base les couples
d'entités répondant à un critère spatiale ou
des matrices de contiguité qui constituent une étape dans
le processus du data mining.
Détermination des Spots
Temps d'exécution
|
Volume de données
|
Coûts en Entrées/sorties
|
Influence du rayon sur le nombre de spots
|
(iv) l'estimation de densités :
La manière la plus simple de représenter les accidents est
de cartographier le semis de leurs points (chaque point correspondant à
une localisation exacte d'un ou de plusieurs accidents, dont les coordonnées
géographiques sont renseignées dans la base de données).
Ce type de document est de conception aisée mais difficile à
lire et interpréter. En effet, un point pouvant représenter
un ou plusieurs accidents, l'évaluation de l'importance du phénomène
en chaque point et l'identification de structures spatiales ne sont pas
évidentes.
Nous présentons successivement deux démarches d'analyse
spatiale d'un semis d'accidents de la route dont le point commun est l'utilisation
de techniques de calcul par fenêtres mobiles circulaires [Gatrell
94, Gatrell 96]. Les applications ont été développées
sous un environnement d'analyse exploratoire spatiale : Xlisp-Stat. La
première démarche est l'estimation de densités d'accidents
par noyau.
L'application en accidentologie de cette méthodes répond
à plusieurs objectifs :
-
donner une " autre écriture " du semis de points ;
-
se dégager des découpages spatiaux ordinaires (découpages
administratifs, carroyage).
La méthode usuelle d'estimation de densité est l'agrégation
de données à des unités spatiales de niveau supérieur
et le calcul de la densité en fonction de la surface de ces unités.
Mais cette opération, qui passe par une généralisation
de l'information, ne rend pas compte des différences de répartition
spatiale à l'intérieur des unités élémentaires.
Or, le nombre d'accidents se caractérisant par une forte variabilité
spatiale et temporelle, nous avions besoin d'une méthode qui permette
d'identifier les structures d'intensité du phénomène
en tout lieu de l'espace.
Principe de la méthode
On estime en tout lieu de l’espace l’intensité d’un phénomène
(par exemple le nombre d’accidents) en balayant de façon systématique
la zone d’étude par une fenêtre mobile circulaire, dont le
nombre total et le rayon (r) sont définis au préalable
par l’utilisateur. Les accidents dénombrés dans une fenêtre
sont pondérés en fonction de leur distance euclidienne au
centre de cette fenêtre circulaire. La fonction de pondération
est une fonction bi-carrée décroissante (nulle lorsque la
distance est égale au rayon de la fenêtre) :

Le rayon de la fenêtre définit le degré de lissage
de l’information. C'est pourquoi, on adapte la taille de la fenêtre
en fonction de l’intensité du phénomène (réduction
de la taille dans les zones à forte densité afin de mieux
prendre en compte les structures locales, choix d'un rayon plus grand là
où l'intensité locale est faible). Pour permettre cette adaptation,
un premier balayage de la zone est effectué avec des fenêtres
de taille fixe. Puis pour chaque fenêtre, on détermine un
nouveau rayon spécifique en comparant la densité locale avec
un indicateur de densité initiale global, qui est la moyenne géométrique
des intensités calculées pour l'ensemble des fenêtres.

La formule finale est la somme des distances pondérées de
tous les accidents au centre de la fenêtre sur la surface de cette
fenêtre où :
l (X) est l'intensité
d'accidents en un lieu X, centre de la fenêtre mobile
r(X) le rayon adaptatif
k la fonction de pondération par la distance
Xi le lieu d'un accident
Finalement, on obtient un deuxième semis de points où chaque
élément est le centre d'une fenêtre mobile dont on
connaît l'intensité d'accidents. Les cartes présentées
ci-dessous sont obtenues après interpolation des résultats.
Résultats
Densités estimées à partir de 20 000 fenêtres
mobiles fixes de rayon 1000 m
|
Densités estimées à partir de 20 000 fenêtres
mobiles adaptatives de rayon 1000 m
|
(v) La recherche de concentrations locales anormales d'accidents
La méthode de recherche de concentrations locales s'intègre
de façon opérationnelle dans la démarche d'identification
de zones dangereuses, une des préoccupations principales en accidentologie.
Toutes la richesse d'un semis de points est la connaissance exacte de la
position géographique de chaque élément, connaissance
qui permet d'appliquer des méthodes d'analyse spatiale. Dans notre
cas, chaque point est aussi connu par un ensemble d'attributs sémantiques
caractérisant l'accident (types d'impliqué, gravité,
jour, etc.). L'application d'une méthode de recherche de concentrations
locales aux cas des accidents de la route a pour objectif détecter,
en se basant sur une comparaison statistique, des agrégats spatiaux
anormaux d'accidents, agrégats impossible à déceler
par simple lecture visuelle du semis de points, et qui seraient autant
de zones dangereuses.
Par ailleurs, une importante littérature existe sur la recherche
de Cluster, tant au point de vue des méthodes que des applications,
surtout en épidémiologie. Une revue de méthodes a
été faite et présentée dans l'article relatant
nos travaux [Banos 99]. Les applications en géographie sont peu
importantes et à notre connaissance inexistantes en accidentologie.
Nous ne citons ici que les références ayant attrait à
la méthode utilisée : initiée par Openshaw dans sa
Geographical
Analysis Machin et améliorée par Fotheringham [Openshaw
87, Openshaw 95, Openshaw 99, Fotheringham 96].
Principe de la méthode
La question sous-jacente à la recherche de concentrations locales
est la suivante : une sous-population d'accidents extraite par requête
attributaire (par exemple : les accidents de piétons âgés
de moins de 10 ans), se répartit elle dans l'espace de la manière
que la population de référence (l'ensemble des accidents)
? ou au contraire existent-t il des différences locales d'organisation
spatiale ?
La population de référence :
les accidents en 1996
|
La sous-population :
les accidents de piétons-enfants
|
Le principe fédérateur de la méthode est la comparaison
statistique de la distribution spatiale de la sous-population avec sa distribution
théorique associée, construite sous l'hypothèse d'une
répartition spatiale aléatoire des événements.
La significativité des écarts entre les deux distribution
est testée par la loi de Poisson. Pour appliquer ce test statistique,
la zone d'étude est couverte par un nombre défini par l'utilisateur
de fenêtres mobiles circulaires, dont les localisations sont tirées
au hasard (avec remise) et dont le rayon, variable, est choisi au hasard
dans un intervalle fixé par l'utilisateur. Cette technique permet
de couvrir au mieux la zone d'étude avec un nombre pas trop important
de fenêtres, ce qui garantie des temps de calculs raisonnables (environ
10 min).
Plus précisemment, on calcule la probabilité moyenne d'observer
au hasard un accidents de piéton-enfant dans la zone d'étude
:

pour chaque fenêtre, on compte le nombre d’accidents total (N),
le nombre d’accidents de piétons-enfant (n) et on calcule
le nombre théorique d’accidents de piétons-enfants attendu
avec une répartition aléatoire (a
). On teste ensuite l’écart entre le nombre observé et
le nombre attendu d’accidents de piétons par application de la loi
de Poisson, ce qui revient à calculer la probabilité d'observer
au hasard exactement n accidents de piétons-enfant alors
que l'on en attend a :

Les résultats sont représentés sur le semis de points
de la sous-population : n'apparaissent que les fenêtres circulaires
pour lesquelles la probabilité P(n,a
) est inférieure à un seuil fixé par l’utilisateur.
Les niveaux considérés comme les plus stables sont bien sûrs
les niveaux de probabilité les plus faibles. Chaque fenêtre
dessinée identifie une concentration spatiale locale anormale d'accidents.
Résultats
Identification de concentrations locales d'accidents de piétons-enfant
en 1996
Probabilité inférieure à 0.005
|
Probabilité inférieure à 0.001
|
(vi) l'autocorrélation spatiale :
Les mesures d'autocorrélation spatiale se fondent sur l'hypothèse
que ce qui se passe en un lieu géographique donné dépend
de ce qui se passe dans les lieux voisins. Elles prennent en compte la
position relative des lieux les uns par rapports aux autres. En modélisant
l'espace, il est possible de définir un voisinage à travers
la notion de contiguïté (définition la plus courante
: deux lieux sont contiguës s'ils ont au moins une frontière
ou un sommet commun). L'autocorrélation spatiale peut alors être
calculée pour différents ordres de voisinage. Les indices
usuels sont ceux de Moran et de Geary. A titre d'exemple, nous présentons
ci-dessous l'indice de Moran.
Les mesures globales permettent de dire si les lieux d'un ensemble donné
ont plus tendance à ressembler ou à être différents
de leurs voisins. En fonction de la valeur de l'indice (variant de
-1 à 1 pour l'indice de Moran, de 1 à 2 pour celui de Geary),
on est capable de décrire la structure d'organisation spatiale d'un
caractère commun à l'ensemble des lieux :
aléatoire lorsqu'il y a absence d'autocorrélation spatiale
et donc de relation entre les lieux. La caractéristique d'un lieu
est indépendant de ce qui se passe chez ses voisins ;
autocorrélation positive lorsque les lieux proches ont tendance
à se ressembler davantage que les lieux éloignés ;
autocorrélation négative lorsque, au contraire, les lieux
voisins ont plus tendance à être différents entre eux.
Indice global et indice local
L'indice global de Moran mesure le rapport entre la covariation entre voisins
et la variation totale du caractère étudié :

où N est le nombre de lieux, W est la matrice de contiguïté
(Wij = 1 si i et j sont contiguës, 0 autrement)
Appliqué aux données accidents, il nous permet de qualifier
l'organisation spatiale des accidents ou de leurs attributs et de quantifier
la relation des lieux entre eux.
Exemples :
|
Variables
|
Ordre 1
|
Ordre 2
|
| Nombre d'accidents |
0.57
|
0.36
|
| Nombre de tués |
0.29
|
0.15
|
| Nombre de blessés graves |
0.36
|
0.19
|
| Nombre de blessés légers |
0.58
|
0.38
|
| Population |
0.34
|
0.18
|
Cet indice global, comme celui de Geary, peut être décomposé
en indices locaux. On calcule alors pour chaque lieu un coefficient rendant
compte de l'autocorrélation spatiale au niveau local (entre voisins
uniquement) :

Ces coefficients peuvent, au contraire de l'indice global, prendre des
valeurs, positives et négatives, très fortes. Leur somme
est proportionnelle à l'indice global. La cartographie des résultats
reflète l'intérêt des indices locaux. Ainsi, ces indices
peuvent mettre en évidence des situations locales particulières
et en contradiction avec la valeur de l'indice global (exemple : coefficient
local inverse à l'indice global); ou à l'inverse, si l'autocorrélation
globale faible ou nulle, les indices locaux peuvent montrer des structures
qui auront échappé à la mesure d'ensemble.
Exemples :
Indices locaux d'autocorrélation.
Le cas du nombre de blessés légers
|
Indices locaux d'autocorrélation.
Le cas du nombre de tués
|
Ces exemples montrent l'utilité des méthodes d'autocorrélation
globales et locales en accidentologie, notamment pour la recherche de zones
dangereuses, en individualisant des configurations particulières
(des lieux se comportant très différemment de leurs voisins),
en identifiant des agrégats de lieux proches géographiquement
et structurellement. De plus avoir connaissance d'une autocorrélation
spatiale peut nous amener à adapter des méthodes d'analyse,
comme les analyses factorielles, afin de prendre en compte des effets de
structure spatiale.
Pour plus d'informations sur l'autocorrélation spatiale, se référer
à [Charre 95, Pumain 97, Jayet 93] en plus de la publication d'origine
[Cliff 73]. Les travaux ayant introduit les mesures locales sont décrits
dans [Anselin 95, Ord 92, Ord 95].
Perspectives :
Dans l'immédiat, les méthodes développées
au sein de chaque sous-équipe vont être testées par
l'autre partie. Cette phase de validation permettra d'une part de corriger
ou d'améliorer le prototype, mais aussi d'intégrer dans le
cycle d'analyse des méthodes aussi variées et d'en montrer
l'intérêt. A court terme et pour clore le projet, nous prévoyons
l'organisation de journées sur le thème du data mining spatial
et l'application à l'analyse du risque sur un réseau.
Le travail en équipe pluri-disciplinaire (géographes,
statisticiens et informaticiens) nous a permis d'aboutir à des résultats
qui feront bientôt l'objet d'une publication commune, mais beaucoup
reste à faire sur ce sujet. En effet, si nous avons pu installer
l'environnement et fait des développements de différentes
méthodes, il faudrait plus de temps pour faire réellement
converger nos approches (à l'origine différentes) et intégrer
nos divers développements. Des perspectives de recherches sont apparues.
La première est de développer des méthodes explicatives
en recherchant des correspondances entre les accidents et les autres couches
comme le réseau, le tissu urbain et des correspondances dans le
temps. Celà comprend :
-
la découverte parmi toutes les données thématiques
de relations liant les attributs et de relations spatiales : etudier
l'apport et l'application des associations spatiales ou des classifications
à l'aide d'arbres de décisions [Koperski 95, Koperski 98]
-
l'intégration de connaissances sur le flux et la mobilité
(autre objet spatio-temporel) : définir la connaissance qui serait
utile et son exploitation ?
-
l'intégration de la morpholgie urbaine : la reconnaissance du type
de tissu urbain et son exploitation dans les facteurs à analyser
?
-
la variation spatio-temporelle (les accidents sont datées de manière
précise) : comment tenir compte du facteur temps ?
Une autre préoccupation concerne la spécificité de
localisation des accidents sur un réseau linéaire
et non pas sur un espace ouvert. Les méthodes étudiées
jusqu'à présent se basent sur, soit la répartition
dans l'espace 2D, soit le graphe de voisinage. Or, les deux aspects sont
importants dans la distribution des accidents. Il faudra analyser l'impact
de cette distribution et comment en tenir compte ?
Enfin, l'optimisation des algorithmes reste un problème de recherche.
Une méthode peut être intéressante sur le plan fonctionnel,
mais on sait bien que sur des bases de données importantes et spécialement
dans un contexte de data mining, le temps d'exécution est un problème
permanent qu'on doit résoudre.
Références :
Anselin L., 1995 : "Local Indicators of Spatial Association - LISA", Geographical
Analysis, Ohio Sate University press, Vol. 27, n° 2, pp. 93-115
Baghdadi S., "Analyse spatiale du risque d'accidents routier dans un SIG",
Rapport de stage du DESS Informatique Pour la Ville de l'université
Technologique de Compiègne, fait au laboratoire PRISM, Juillet 1999.
Banos A. et Huguenin-Richard F, "Méthode d'identification de concentrations
locales d'évènements dans un semis de points. Application
aux accidents de la route", Actes du colloque Théo Quant, Besançon,
1999, à paraître.
Benali H., Escofier B., "Analyse factorielle lissée et analyse factorielle
des différences locales", Revue Statistique Appliquée, 1990,
XXXVIII (2), pp 55-76.
Brinkhoff T., Kriegel H.-P., Schneider R., Seeger B., "Multi-Step Processing
of Spatial Joins", Proc. ACM SIGMOD Int. Conf. on Management of Data, Minneapolis,
MN, 1994, pp. 197-208.
Ciaccia P., Patella M., and Zezula P. , "M-tree: An Efficient Access
Method for Similarity Search in Metric Space", Proceedings of the 23rd
VLDB Conference Athens, Greece, 1997, pp. 426-435
Charre J., 1995 : "Statistique et territoire", Ed. GIP Reclus, Collection
Espaces modes d'emploi, Montpellier, 119 p.
Chrétien D., Quilio I., "La jointure spatiale par partitionnement",
5th European Conference and Exhibition on Geographical Information Systems
(EGIS'94), Paris, France, Mars 1994, pp. 284-293.
Cliff A.D., Ord J.K., 1973 : "Spatial autocorrelation", Pion, London.
Ester M., Frommelt A., Kriegel H.-P., Sander J., "Algorithms for Characterization
and Trend Detection in Spatial Databases", Proc. 4th Int. Conf. on Knowledge
Discovery and Data Mining, New York, NY, 1998.
Ester M., Kriegel H.-P., Sander J., "Spatial Data Mining: A Database Approach",
Proc. 5th Symp. on Spatial Databases, Berlin, Germany, 1997.
Fotheringham S., Zhan B., 1996 : "A comparison of three exploratory methods
for cluster detection in spatial point patterns", Geographical Analysis,
Vol. 28, n° 3, pp. 200-218
Gatrell A., 1994 :" Density estimation and the visualization of point patterns,
in Visualization in Geographical Information Systems", John Wiley and Sons,
Chichester, pp. 65-75
Gatrell A., Bailey T., Diggle P., Rowlingson B., 1996 : "Spatial point
pattern analysis and its application in geographical epidemiology", Transactions
of the Institute of British Geographers, n° 21, pp. 256-274
Gunther O., "Efficient Computation of Spatial Joins", Proc of Data Engineering,
Vienna, Austria, April 1990, pp. 50-59.
Han J., Cai Y. & Cerone N., "Knowledge Discovery in Databases; An Attribute-Oriented
Approach." Proceedings of the 18th VLDB Conference. Vancouver, B.C.,
August 1992. pp. 547-559.
Han J., Koperski K., and Stefanovic N., "GeoMiner: A System Prototype for
Spatial Data Mining'', Proc. ACM-SIGMOD Int. Conf. on Management of Data
(SIGMOD'97), Tucson, Arizona, May 1997.
Jayet H., 1993 : "Analyse spatiale quantitative - 1. Introduction", Economica,
Paris, 202 p. Banos A., Bolot J., Représentation surfacique
d'évènements ponctuels discrets - Comparaison méthodologique
à partir d'accidents de la route, Actes de Colloque, Quatrièmes
Rencontres de Théo Quant, Besançon, 1999, à paraître.
Koperski K. and Han J., "Discovery of Spatial Association Rules in Geographic
Information Databases", In Advances in Spatial Databases (SSD'95), pp.
47-66, Portland, ME, August 1995.
Koperski K., Han J., and Stefanovic N., "An Efficient Two-Step Method for
Classification of Spatial Data'', In Proc. International Symposium on Spatial
Data Handling (SDH'98) , pp. 45-54, Vancouver, Canada, July 1998.
Lebart L. et al., 1995, "Statistique exploratoire multidimensionnelle"
, Editions Dunod, Paris, 439 p. 2° édition en 1997.
Lu W., and Han J., "Distance-Associated join indices for spatial range
search", Proceeding of Eighth International Conference on Data Engineering,
Tempe, Arizona, Fabruary 1992, pp. 284-292.
Lu W., Han J. and Ooi B. C., "Discovery of General Knowledge in Large Spatial
Databases'', in Proc. of 1993 Far East Workshop on Geographic Information
Systems (FEGIS'93), Singapore, June 1993, pp. 275-289.
Mathsoft Inc., "S-Plus for ArcView GIS - Users Guide Version 1.0" and "S-Plus
Spatial Stat.", Data Aalysis Products Division, Seattle, Washington, April
1998.
Openshaw S., 1995 : "Developing automated and smart spatial pattern exploration
tools for geographical information systems applications", The Statistician,
Vol. 44, n° 1, pp. 3-16
Openshaw S., Charlton M., Wymer C., Craft A., 1987 : "A mark 1 geographical
analysis machine for the automated analysis of point data sets", International
Journal of Geographical Information Systems, Vol. 1, n° 4, pp. 335-358
Openshaw S., Turton I., 1999, "Geographical Analysis Machine on the internet",
http://www/ccg.leeds.ac.uk/smart/gam/gam.html
Ord J.K., Getis A., 1995 : "Local Spatial Autocorrelation Statistics :
Distributional Issues and an Application, Geographical Analysis", Ohio
State University Press, Vol. 27, n° 4, pp. 287-306
Ord J.K., Getis A., 1992 : "The Analysis of Spatial Association by Use
of Distance Statistics", Geographical Analysis, Ohio Sate University Press,
Vol. 24, n° 3, pp. 189-206
Pumain D., St-Julien, 1997 : "L'analyse spatiale - 1. Localisation dans
l'espace", Armand Colin, Paris, 167 p.
Rotem D., "Spatial join indices", Proc. of 7th Conf. on Data Engineering,
Kobe, Japan, 1991, 500-509
Valduriez P., "Join Indices", ACM Transactions on Database Systems, 12
(2), June 1987, pp. 218-246.
Yeh T-S., "Spot: Distance based join indices for spatial data", ACM GIS
99, Kansass City, 5-6 Nov 1999, à Paraitre.
Zeitouni K., "Etat de l'art sur l'extension du data mining aux bases de
données géographiques", Rapport Interne du Laboratoire PRiSM,
Université de Versailles-Saint-Quentin, Référence
1999/10, Avril 1999, 26 pages.
Zeitouni K., "Index de jointures spatiales et application au data mining",
Rapport Interne du Laboratoire PRiSM, Université de Versailles-Saint-Quentin,
Septembre 1999, à paraître.