Rapport d'avancement du projet : 

"Extraction de connaissances des bases de données spatiales en accidentologie routière"

Edition de Septembre 1999
Karine Zeitouni, Laurent Yeh 
Laboratoire PRiSM - Université de Versailles 
Karine.Zeitouni@prism.uvsq.fr
yeh@prism.uvsq.fr
Sylvain Lassarre 
DERA - INRETS 
 lassarre@inrets.fr
Florence Huguenin-Richard, 
THEMA - Besançon 
florence.huguenin-richard@univ-fcomte.fr
Azedine Boulmakoul 
LIST, FST - Mohammedia 
bool1@caramail.com
Mots Clés
  • Bases de données spatio-temporelles, 
  • Data mining spatial, 
  • Accidentologie routière, 
  • Analyse statistique du risque, 
  • Analyse spatiale du risque
  • Problématique :

    Le contexte de ce projet est l'analyse du risque d'accidents de la route. Le risque est estimé à partir de bases de données localisées sur les accidents corporels de la circulation, répertoriés par la gendarmerie. Cette analyse est de nature statistique, mais n'utilise guère, pour l'instant, la composante spatiale et le lien avec le voisinage. Or, l'analyse de la répartition spatiale et des interactions avec l'environnement géographique pourrait révéler des phénomènes locaux (des points noires) ou des règles explicatives sur l'occurence des accidents.

    L'objet du projet est donc d'appréhender l'accident par son environnement. Partant des données sur les accidents et d'autres informations urbaines - le réseau routier, les découpages administratifs, la population, etc.- l'analyse spatiale permet de découvrir les regroupements, les propriétés caractéristiques ou les relations spatiales intéressantes parmi ces données.

    Méthodes :


    Les données sur les accidents, comme c'est le cas des données thématiques en général, sont constituées de données attributaires auxquelles est rattachée une localisation spatiale. L'analyse de données (uni et multi-variées) a été, jusqu'à présent, largement appliquée sur la seule partie attributaire de ces données. L'état de l'art sur l'analyse de données spatiales a montré qu'il existe par ailleurs des travaux sur la prise en compte d'une structure spatiale dans l'analyse de données [Benali 90, Lebart 97], comme l'analyse factielle sous contraintes de contiguïté et le test d'autocorrélation spatiale (indices de Geary et Moran) [Cliff 73, Ord 92, Ord 95]. D'autres travaux explorent les localisations (semis de points) pour découvrir des densités, des tendances ou des concentrations [Fotheringham 96, Openshaw 87, Openshaw 95]. Enfin, des approches plus sémantiques intègrent des connaissances de l'expert (hiérarchies de concepts) et/ou exploitent les relations spatiales (graphe de voisinage) [Ester 97, Ester 98] dans des méthodes de data mining sur bases de données spatiales [Lu 93, Koperski 95, Han 97, Koperski 98] .

    Dans l'état actuel, ces méthodes d'analyse spatiale ont été peu ou pas du tout appliquées à l'accidentologie routière. Le premier objectif est de les évaluer et de les mettre en oeuvre dans le cadre de ce domaine d'application. Plus généralement, nous visons à regrouper et à intégrer dans un processus d'extraction de connaissances des méthodes provenant de domaines de recherches différents (analyse de données et bases de données spatiales). Cette démarche est applicable quelque soit la base de données spatiale à analyser. Enfin on vise également à adapter, améliorer ces méthodes et en proposer des nouvelles.

    Réalisation :


    Après une durée de près d'un an de ce projet, en voici les réalisations : Les dernières méthodes relèvent de l'analyse exploratoire de données spatiales, quant aux premières elles sont du domaine de l'apprentissage et des bases de données. A l'issue de ces travaux nous avons pu esquisser un rapprochement des méthodes issues de ces deux domaines, permettant ainsi de les combiner dans un processus de data mining sur les données spatiales.

    Le projet s'appuie sur les données géographiques de la communauté urbaine de Lille (CUDL). En effet, ces données concernent une étendue géographique conséquente, une variété de composition urbaine et péri-urbaine et des renseignements intéressants reportés dans la base de données rendant l'extraction de connaissances spécialement intéressante. Hormis le thème des accidents décrivant des localisations ponctuelles, la base comprend un thème détaillé sur la voierie, les découpages administratifs ainsi que des entités de l'environnement urbain comme les voies ferrées, les édifice publics et religieux, les centres commerciaux ou les espaces verts (comme le montre la figure ci-dessous).

    Les développement ont été faits dans différents environnements (Windows et Unix) et avec différents logiciels (SIG ArcView, Splus, XLisp-Stat., ADE).

    Description des méthodes développées et premiers résultats d'analyses :


    (i) la généralisation et la caractérisation de données spatiales

    Une des tâches importantes du data mining est de décrire de manière synthétique les données. Les méthodes de généralisation et de caractérisation ont été développées à cet effet. Comme elles interviennent au début du processus d'analyse, nous les avons mis en oeuvre en priorité et étendu pour notre type d'application.

    La généralisation spatiale

    La généralisation constitue un moyen efficace pour résumer le contenu de la base. Dans le domaine des bases de données relationnelles, elle se base sur la notion de hiérarchie de concepts (comme les concepts de semaine et de week-end de plus haut niveau que les jour de la semaine -cf. figure- ) et utilise l'induction pour produire automatiquement le niveau de détail souhaité [Han 92]. Cette méthode a été étendue aux base de données spatiales, où elle utilise en plus une hiérarchie spatiale (comme la relation d'inclusion de la figure ci-dessous) par analogie avec les hiérarchies de concepts [Lu 93]. Il en découle deux algorithmes selon l'ordre d'utilisation de ces deux type de hiérarchies.
     

     
     

    Hiérarchie de concepts


    Hiérarchie spatiale

    L'application à notre base de données spatiale a prouvé son importance dans le d'analyse comme résultat final (la figure ci-dessous montre la généralisation d'accidents selon les hiérarchie de date et de luminosité), que ce soit pour découvrir des règles pertinentes (comme la caractérisation [Ester 98]) ou pour réduire le nombre de modalités dans une analyse factorielle ou encore en changeant d'échelle d'analyse en agrégeant les propriétes des accidents au niveau des tronçon de route, des quartiers ou des communes. Cette application soulève néanmoins quelques questions qu'il a fallu étudier et résoudre, comme la généralisation de données ponctuelles, la définition ou le calcul de hiérarchies spatiales (relation tantot préexistante dans le schéma de la base, tantot calculée par requête spatiale) et enfin la généralisation de données numériques.

    Un autre apport concerne le type d'agrégation suite à l'induction, comprenant des expressions quelconques et non limités au comptage de la méthode originale. Enfin la transformation du résultat en tableau de contingence en vue d'une analyse de correspondances et la cartographie du résultat.

    La caractérisation

    Une autre approche pour synthétiser les données spatiales est de déduire de règles caractéristiques de la partie de la base à analyser [Ester 98]. Ces règles sont définies par les propriétés qui sont plus fréquentes dans un sous ensemble de la base de données relativement à leur férequence dans le reste de la base. La spécificité de ces règles caractéristiques en base de données géographiques est qu’elles découvrent en plus de la fréquence de ces propriétés leur niveau d'extension aux voisins. Pour cela, elles nécessite la définition d'un graphe (ou matrice) de voisinage (voir le point (ii)).

    Plus précisément, étant donné un sous-ensemble S d’objets à analyser, les paramètres (i) de signifiance (c’est à dire le seuil de fréquence relative (à la BD) dans S), (ii) de confiance qui donne la proportion d’objets dans S qui satisfont le seuil de signifiance dans leur voisinage et (iii) l'extension maximum aux voisins, cette méthode découvre les propriétés pi = (attribute, value), la fréquence relative (au-dessus du seuil de signifiance) et le nombre ni de voisins auxquels s’étend cette fréquence de la propriété. La caractérisation peut s’exprimer par une règle :

    S -> p1(n1 , freq1 ) et  ... pk(nk , freqk )
    Un exemple dans notre application est de caractériser les accidents mortels par rapport à l’ensemble des accidents ? La méthode trouve qu'ils se produisent plus fréquemment la nuit et le week-end et que les causes sont humaines ou indéterminées. Cette dernière propriété s'étend aux voisins, ce qui veut dire que localement, la zone ou se produisent ces accidents graves, il se produit beaucoup d'accidents (pas forcément mortels) de cause indéterminée. Ce qui laisse croire qu'il y aurait peut-être d'aménagement routier. Cette méthode est complémentaire de la recherche de concentrations locales développée dans le point (v). De plus, elle s'applique à tout type d'objets et pas seulement aux ensembles de points.

    (ii) la génération de matrices de voisinage

    Les données géographiques sont caractérisées par des relations spatiales, le plus souvent implicites, mais qui ont une grande importance dans l’analyse. Pour déterminer ces liens, on doit mettre en oeuvre des jointures dites spatiales car elles se basent sur un critère spatial. La résolution de ces opérateurs se confronte à des problèmes de performances accrus car elle met en jeu des opérations géométriques complexes et opère sur des volumes importants de données. D’ailleurs, rares sont les SIG du commerce qui offrent de véritables opérateurs de jointures.

    Ce sujet a fait l’objet de différents travaux, essentiellement pour le critère de recouvrement (ou map overlay) [Chrétien 94, Brinkhoff 94] . Des travaux plus récents ont concerné la jointure basée sur un critère de distance [Lu 92]. Mais d’autres critères sont également intéressants, tels que la contiguïté ou l’inclusion stricte [Rotem 91, Gunther 93].

    Nous proposons une méthode unique permettant d’optimiser à la fois des jointures sur critère métrique et topologique. L’idéee est de constituer un index, extension de l’index de jointure [Valduriez 87] avec pré-calcul des distances entre objets, puis de s’en servir comme filtre lors des requêtes de jointures spatiales. En effet, toutes ces requêtes pourront être résolues par simple sélection dans l’index. D’où l’optimisation des performances par rapport à un algorithme direct. Bien évidemment, il n’est pas utile de stocker les distances entre objets très éloignés. Seuls les objets ayant une distance raisonnable (définie par le concepteur de l’index) sont stockés dans l’index. Ce qui optimise à la fois la construction, le stockage et la recherche dans l’index.

    Cette structure présente plusieurs intérêts, particulièrement dans l’application au data mining spatial. D’un côté, elle s’applique à différents types de jointures (et pas seulement au map overlay comme le font d’autres travaux). Ainsi, on peut calculer efficacement les relations topologiques de contiguité ou d’inclusion, ou métriques sur critère de distance. D’un autre côté, elle correspond aux structures exploitées dans les algorithmes de data mining spatial, à savoir, la " matrice de contiguité " dans l’approche analyse de données [Lebart 97, Mathsoft 98] ou au " graphe de voisinage " dans l’approche base de données spatiales [Ester 97]. Ceci revient à représenter le résultat sous forme d’index et donc à éviter la matérialisation, coûteuse et pas toujours nécessaire, de la jointure spatiale. Cette matérialisation reste néanmoins possible si l’utilisateur la souhaite.

    En outre, une attention particulière a été portée, dans l’implémentation, au paramétrage du critère de jointure. Ainsi, pour le calcul de distance on peut choisir entre la distance centre à centre, bord à bord, ou par le plus court chemin. On peut se restreindre à un rayon (à moins d’une distance donnée) ou dans un anneau (entre deux distances données). On peut aussi rechercher les k plus proches voisins au sens de ces distances (permettant la segmentation en "groupe d'objets proches"). Quant aux relations de voisinage, elles peuvent être considérées à différents degrés (voisins directs, voisins de voisins, ainsi de suite).

    Plusieurs algorithmes ont été implémentées pour les tests de performances : un algorithme naîf par produit cartésien, un algorithme direct qui remplace le parcours d’une relation par l’accès par index spatial, un algorithme intégrant la construction de l’index de jointure et enfin l’algorithme de jointure avec index pré-construit. Les mesures ont porté sur des volumes de données allant d’une centaine de tuples jusqu’à 30000 tuples pour différents critères (ici, la figure correspond à la jointure sur critère de distance). L’algorithme naif a été écarté dès les premiers tests en raison de son coût exorbitant (70 mn au lieu de 3mn pour l’algorithme direct).

    Les autres mesures de performances (voir figure ci-dessous) montrent le gain considérable obtenu par la jointure avec index précréé par rapport à l’algorithme direct. En effet, tout l’intérêt de l’index est d’être créé une fois pour toutes pour être exploité plusieurs fois par des opérateurs invoqués fréquemment. L’essentiel est donc de réduire le coût de l’opérateur lorsque l’index est préexistant. Néanmoins, nous avons cherché à éviter des coûts exorbitants de construction de l’index en utilisant une variante de l’algo direct. Par conséquent, comme le montre la figure, cette étape n’introduit presque pas de surcoût (différence entre algo direct et algo index qui intègre la création de l’index).


    (iii) la jointure spatiale sur critère de distance

    Dans le cadre de l'analyse spatiale et le data mining, la composante distance permet de voir l'influence d' un groupe d'entités sur un autre groupe. Ce critère spatial est donc important pour comprendre les interactions spatiales pouvant exister et extraire de nouvelles connaissances. Dans notre exemple d'application, l'analyse sur les localisations d'accidents (formées de points) constitue une part imporatantes du processus de data mining spatial. D'où l'intérêt de la jointure spatiale basée distance.

    Pour optimiser l'opérateur de jointure basé distance sur données ponctuelles, nous avons développé une approche basée sur les indices de jointures. Cette approche consiste à aggréger sur un niveau les entités dans des "spots". Il est alors possible de calculer la distance entre les spots afin d'élimier certains calculs de distances des entités contenus dans les spots. Une structure de données adaptée sur disque a été proposée pour réduire le volume de données calculé. Des mesures de performances sur des données d'accidentologie ont montré la viabilité de l'approche. Cette approche se conçoit comme un accélérateur pour extraire d'une base les couples d'entités répondant à un critère spatiale ou des matrices de contiguité qui constituent une étape dans le processus du data mining.


    Détermination des Spots


    Temps d'exécution

    Volume de données

    Coûts en Entrées/sorties

    Influence du rayon sur le nombre de spots

    (iv) l'estimation de densités :

    La manière la plus simple de représenter les accidents est de cartographier le semis de leurs points (chaque point correspondant à une localisation exacte d'un ou de plusieurs accidents, dont les coordonnées géographiques sont renseignées dans la base de données). Ce type de document est de conception aisée mais difficile à lire et interpréter. En effet, un point pouvant représenter un ou plusieurs accidents, l'évaluation de l'importance du phénomène en chaque point et l'identification de structures spatiales ne sont pas évidentes.

    Nous présentons successivement deux démarches d'analyse spatiale d'un semis d'accidents de la route dont le point commun est l'utilisation de techniques de calcul par fenêtres mobiles circulaires [Gatrell 94, Gatrell 96]. Les applications ont été développées sous un environnement d'analyse exploratoire spatiale : Xlisp-Stat. La première démarche est l'estimation de densités d'accidents par noyau.

    L'application en accidentologie de cette méthodes répond à plusieurs objectifs :

    La méthode usuelle d'estimation de densité est l'agrégation de données à des unités spatiales de niveau supérieur et le calcul de la densité en fonction de la surface de ces unités. Mais cette opération, qui passe par une généralisation de l'information, ne rend pas compte des différences de répartition spatiale à l'intérieur des unités élémentaires. Or, le nombre d'accidents se caractérisant par une forte variabilité spatiale et temporelle, nous avions besoin d'une méthode qui permette d'identifier les structures d'intensité du phénomène en tout lieu de l'espace.

    Principe de la méthode

    On estime en tout lieu de l’espace l’intensité d’un phénomène (par exemple le nombre d’accidents) en balayant de façon systématique la zone d’étude par une fenêtre mobile circulaire, dont le nombre total et le rayon (r) sont définis au préalable par l’utilisateur. Les accidents dénombrés dans une fenêtre sont pondérés en fonction de leur distance euclidienne au centre de cette fenêtre circulaire. La fonction de pondération est une fonction bi-carrée décroissante (nulle lorsque la distance est égale au rayon de la fenêtre) :
    Le rayon de la fenêtre définit le degré de lissage de l’information. C'est pourquoi, on adapte la taille de la fenêtre en fonction de l’intensité du phénomène (réduction de la taille dans les zones à forte densité afin de mieux prendre en compte les structures locales, choix d'un rayon plus grand là où l'intensité locale est faible). Pour permettre cette adaptation, un premier balayage de la zone est effectué avec des fenêtres de taille fixe. Puis pour chaque fenêtre, on détermine un nouveau rayon spécifique en comparant la densité locale avec un indicateur de densité initiale global, qui est la moyenne géométrique des intensités calculées pour l'ensemble des fenêtres.
    La formule finale est la somme des distances pondérées de tous les accidents au centre de la fenêtre sur la surface de cette fenêtre où :
    l (X) est l'intensité d'accidents en un lieu X, centre de la fenêtre mobile
    r(X) le rayon adaptatif
    k la fonction de pondération par la distance
    Xi le lieu d'un accident
    Finalement, on obtient un deuxième semis de points où chaque élément est le centre d'une fenêtre mobile dont on connaît l'intensité d'accidents. Les cartes présentées ci-dessous sont obtenues après interpolation des résultats.

    Résultats

    Densités estimées à partir de 20 000 fenêtres 
    mobiles fixes de rayon 1000 m 
    Densités estimées à partir de 20 000 fenêtres 
    mobiles adaptatives de rayon 1000 m 

    (v) La recherche de concentrations locales anormales d'accidents

    La méthode de recherche de concentrations locales s'intègre de façon opérationnelle dans la démarche d'identification de zones dangereuses, une des préoccupations principales en accidentologie. Toutes la richesse d'un semis de points est la connaissance exacte de la position géographique de chaque élément, connaissance qui permet d'appliquer des méthodes d'analyse spatiale. Dans notre cas, chaque point est aussi connu par un ensemble d'attributs sémantiques caractérisant l'accident (types d'impliqué, gravité, jour, etc.). L'application d'une méthode de recherche de concentrations locales aux cas des accidents de la route a pour objectif détecter, en se basant sur une comparaison statistique, des agrégats spatiaux anormaux d'accidents, agrégats impossible à déceler par simple lecture visuelle du semis de points, et qui seraient autant de zones dangereuses.

    Par ailleurs, une importante littérature existe sur la recherche de Cluster, tant au point de vue des méthodes que des applications, surtout en épidémiologie. Une revue de méthodes a été faite et présentée dans l'article relatant nos travaux [Banos 99]. Les applications en géographie sont peu importantes et à notre connaissance inexistantes en accidentologie. Nous ne citons ici que les références ayant attrait à la méthode utilisée : initiée par Openshaw dans sa Geographical Analysis Machin et améliorée par Fotheringham [Openshaw 87, Openshaw 95, Openshaw 99, Fotheringham 96].

    Principe de la méthode

    La question sous-jacente à la recherche de concentrations locales est la suivante : une sous-population d'accidents extraite par requête attributaire (par exemple : les accidents de piétons âgés de moins de 10 ans), se répartit elle dans l'espace de la manière que la population de référence (l'ensemble des accidents) ? ou au contraire existent-t il des différences locales d'organisation spatiale ?
     
     
    La population de référence : 
    les accidents en 1996 
    La sous-population : 
    les accidents de piétons-enfants 
    Le principe fédérateur de la méthode est la comparaison statistique de la distribution spatiale de la sous-population avec sa distribution théorique associée, construite sous l'hypothèse d'une répartition spatiale aléatoire des événements. La significativité des écarts entre les deux distribution est testée par la loi de Poisson. Pour appliquer ce test statistique, la zone d'étude est couverte par un nombre défini par l'utilisateur de fenêtres mobiles circulaires, dont les localisations sont tirées au hasard (avec remise) et dont le rayon, variable, est choisi au hasard dans un intervalle fixé par l'utilisateur. Cette technique permet de couvrir au mieux la zone d'étude avec un nombre pas trop important de fenêtres, ce qui garantie des temps de calculs raisonnables (environ 10 min).

    Plus précisemment, on calcule la probabilité moyenne d'observer au hasard un accidents de piéton-enfant dans la zone d'étude :


    pour chaque fenêtre, on compte le nombre d’accidents total (N), le nombre d’accidents de piétons-enfant (n) et on calcule le nombre théorique d’accidents de piétons-enfants attendu avec une répartition aléatoire (a ). On teste ensuite l’écart entre le nombre observé et le nombre attendu d’accidents de piétons par application de la loi de Poisson, ce qui revient à calculer la probabilité d'observer au hasard exactement n accidents de piétons-enfant alors que l'on en attend a :
    Les résultats sont représentés sur le semis de points de la sous-population : n'apparaissent que les fenêtres circulaires pour lesquelles la probabilité P(n,a ) est inférieure à un seuil fixé par l’utilisateur. Les niveaux considérés comme les plus stables sont bien sûrs les niveaux de probabilité les plus faibles. Chaque fenêtre dessinée identifie une concentration spatiale locale anormale d'accidents.

    Résultats

    Identification de concentrations locales d'accidents de piétons-enfant en 1996


    Probabilité inférieure à 0.005 
    Probabilité inférieure à 0.001 

    (vi) l'autocorrélation spatiale :

    Les mesures d'autocorrélation spatiale se fondent sur l'hypothèse que ce qui se passe en un lieu géographique donné dépend de ce qui se passe dans les lieux voisins. Elles prennent en compte la position relative des lieux les uns par rapports aux autres. En modélisant l'espace, il est possible de définir un voisinage à travers la notion de contiguïté (définition la plus courante : deux lieux sont contiguës s'ils ont au moins une frontière ou un sommet commun). L'autocorrélation spatiale peut alors être calculée pour différents ordres de voisinage. Les indices usuels sont ceux de Moran et de Geary. A titre d'exemple, nous présentons ci-dessous l'indice de Moran.

    Les mesures globales permettent de dire si les lieux d'un ensemble donné ont plus tendance à ressembler ou à être différents de leurs voisins.  En fonction de la valeur de l'indice (variant de -1 à 1 pour l'indice de Moran, de 1 à 2 pour celui de Geary), on est capable de décrire la structure d'organisation spatiale d'un caractère commun à l'ensemble des lieux :

  • aléatoire lorsqu'il y a absence d'autocorrélation spatiale et donc de relation entre les lieux. La caractéristique d'un lieu est indépendant de ce qui se passe chez ses voisins ;
  • autocorrélation positive lorsque les lieux proches ont tendance à se ressembler davantage que les lieux éloignés ;
  • autocorrélation négative lorsque, au contraire, les lieux voisins ont plus tendance à être différents entre eux.
  • Indice global et indice local

    L'indice global de Moran mesure le rapport entre la covariation entre voisins et la variation totale du caractère étudié :
    N est le nombre de lieux, W est la matrice de contiguïté (Wij = 1 si i et j sont contiguës, 0 autrement)

    Appliqué aux données accidents, il nous permet de qualifier l'organisation spatiale des accidents ou de leurs attributs et de quantifier la relation des lieux entre eux.

    Exemples :

    Variables
    Ordre 1
    Ordre 2
    Nombre d'accidents
    0.57
    0.36
    Nombre de tués
    0.29
    0.15
    Nombre de blessés graves
    0.36
    0.19
    Nombre de blessés légers
    0.58
    0.38
    Population
    0.34
    0.18
    Cet indice global, comme celui de Geary, peut être décomposé en indices locaux. On calcule alors pour chaque lieu un coefficient rendant compte de l'autocorrélation spatiale au niveau local (entre voisins uniquement) :
     
    Ces coefficients peuvent, au contraire de l'indice global, prendre des valeurs, positives et négatives, très fortes. Leur somme est proportionnelle à l'indice global. La cartographie des résultats reflète l'intérêt des indices locaux. Ainsi, ces indices peuvent mettre en évidence des situations locales particulières et en contradiction avec la valeur de l'indice global (exemple : coefficient local inverse à l'indice global); ou à l'inverse, si l'autocorrélation globale faible ou nulle, les indices locaux peuvent montrer des structures qui auront échappé à la mesure d'ensemble.

    Exemples :
     
    Indices locaux d'autocorrélation. 
    Le cas du nombre de blessés légers 
    Indices locaux d'autocorrélation. 
    Le cas du nombre de tués 
    Ces exemples montrent l'utilité des méthodes d'autocorrélation globales et locales en accidentologie, notamment pour la recherche de zones dangereuses, en individualisant des configurations particulières (des lieux se comportant très différemment de leurs voisins), en identifiant des agrégats de lieux proches géographiquement et structurellement. De plus avoir connaissance d'une autocorrélation spatiale peut nous amener à adapter des méthodes d'analyse, comme les analyses factorielles, afin de prendre en compte des effets de structure spatiale.

    Pour plus d'informations sur l'autocorrélation spatiale, se référer à [Charre 95, Pumain 97, Jayet 93] en plus de la publication d'origine [Cliff 73]. Les travaux ayant introduit les mesures locales sont décrits dans [Anselin 95, Ord 92, Ord 95].

    Perspectives :



    Dans l'immédiat, les méthodes développées au sein de chaque sous-équipe vont être testées par l'autre partie. Cette phase de validation permettra d'une part de corriger ou d'améliorer le prototype, mais aussi d'intégrer dans le cycle d'analyse des méthodes aussi variées et d'en montrer l'intérêt. A court terme et pour clore le projet, nous prévoyons l'organisation de journées sur le thème du data mining spatial et l'application à l'analyse du risque sur un réseau.

    Le travail en équipe pluri-disciplinaire (géographes, statisticiens et informaticiens) nous a permis d'aboutir à des résultats qui feront bientôt l'objet d'une publication commune, mais beaucoup reste à faire sur ce sujet. En effet, si nous avons pu installer l'environnement et fait des développements de différentes méthodes, il faudrait plus de temps pour faire réellement converger nos approches (à l'origine différentes) et intégrer nos divers développements. Des perspectives de recherches sont apparues.

    La première est de développer des méthodes explicatives en recherchant des correspondances entre les accidents et les autres couches comme le réseau, le tissu urbain et des correspondances dans le temps. Celà comprend :
    Une autre préoccupation concerne la spécificité de localisation des accidents sur un réseau linéaire et non pas sur un espace ouvert. Les méthodes étudiées jusqu'à présent se basent sur, soit la répartition dans l'espace 2D, soit le graphe de voisinage. Or, les deux aspects sont importants dans la distribution des accidents. Il faudra analyser l'impact de cette distribution et comment en tenir compte ?

    Enfin, l'optimisation des algorithmes reste un problème de recherche. Une méthode peut être intéressante sur le plan fonctionnel, mais on sait bien que sur des bases de données importantes et spécialement dans un contexte de data mining, le temps d'exécution est un problème permanent qu'on doit résoudre.

    Références :


    Anselin L., 1995 : "Local Indicators of Spatial Association - LISA", Geographical Analysis, Ohio Sate University press, Vol. 27, n° 2, pp. 93-115
    Baghdadi S., "Analyse spatiale du risque d'accidents routier dans un SIG", Rapport de stage du DESS Informatique Pour la Ville de l'université Technologique de Compiègne, fait au laboratoire PRISM, Juillet 1999.
    Banos A. et Huguenin-Richard F, "Méthode d'identification de concentrations locales d'évènements dans un semis de points. Application aux accidents de la route", Actes du colloque Théo Quant, Besançon, 1999, à paraître.
    Benali H., Escofier B., "Analyse factorielle lissée et analyse factorielle des différences locales", Revue Statistique Appliquée, 1990, XXXVIII (2), pp 55-76.
    Brinkhoff T., Kriegel H.-P., Schneider R., Seeger B., "Multi-Step Processing of Spatial Joins", Proc. ACM SIGMOD Int. Conf. on Management of Data, Minneapolis, MN, 1994, pp. 197-208.
    Ciaccia P., Patella M., and Zezula P. ,  "M-tree: An Efficient Access Method for Similarity Search in Metric Space", Proceedings of the 23rd VLDB Conference Athens, Greece, 1997, pp. 426-435
    Charre J., 1995 : "Statistique et territoire", Ed. GIP Reclus, Collection Espaces modes d'emploi, Montpellier, 119 p.
    Chrétien D., Quilio I., "La jointure spatiale par partitionnement", 5th European Conference and Exhibition on Geographical Information Systems (EGIS'94), Paris, France, Mars 1994,  pp. 284-293.
    Cliff A.D., Ord J.K., 1973 : "Spatial autocorrelation", Pion, London.
    Ester M., Frommelt A., Kriegel H.-P., Sander J., "Algorithms for Characterization and Trend Detection in Spatial Databases", Proc. 4th Int. Conf. on Knowledge Discovery and Data Mining, New York, NY, 1998.
    Ester M., Kriegel H.-P., Sander J., "Spatial Data Mining: A Database Approach", Proc. 5th Symp. on Spatial Databases, Berlin, Germany, 1997.
    Fotheringham S., Zhan B., 1996 : "A comparison of three exploratory methods for cluster detection in spatial point patterns", Geographical Analysis, Vol. 28, n° 3, pp. 200-218
    Gatrell A., 1994 :" Density estimation and the visualization of point patterns, in Visualization in Geographical Information Systems", John Wiley and Sons, Chichester, pp. 65-75
    Gatrell A., Bailey T., Diggle P., Rowlingson B., 1996 : "Spatial point pattern analysis and its application in geographical epidemiology", Transactions of the Institute of British Geographers, n° 21, pp. 256-274
    Gunther O., "Efficient Computation of Spatial Joins", Proc of Data Engineering, Vienna, Austria, April 1990, pp. 50-59.
    Han J., Cai Y. & Cerone N., "Knowledge Discovery in Databases; An Attribute-Oriented Approach." Proceedings of the 18th VLDB Conference.  Vancouver, B.C., August 1992. pp. 547-559.
    Han J., Koperski K., and Stefanovic N., "GeoMiner: A System Prototype for Spatial Data Mining'', Proc. ACM-SIGMOD Int. Conf. on Management of Data (SIGMOD'97), Tucson, Arizona, May 1997.
    Jayet H., 1993 : "Analyse spatiale quantitative - 1. Introduction", Economica, Paris, 202 p. Banos A., Bolot  J., Représentation surfacique d'évènements ponctuels discrets - Comparaison  méthodologique à partir d'accidents de la route, Actes de Colloque, Quatrièmes Rencontres de Théo Quant, Besançon, 1999, à paraître.
    Koperski K. and Han J., "Discovery of Spatial Association Rules in Geographic Information Databases", In Advances in Spatial Databases (SSD'95), pp. 47-66, Portland, ME, August 1995.
    Koperski K., Han J., and Stefanovic N., "An Efficient Two-Step Method for Classification of Spatial Data'', In Proc. International Symposium on Spatial Data Handling (SDH'98) , pp. 45-54, Vancouver, Canada, July 1998.
    Lebart L. et al., 1995, "Statistique exploratoire multidimensionnelle" , Editions Dunod, Paris, 439 p. 2° édition en 1997.
    Lu W., and Han J., "Distance-Associated join indices for spatial range search", Proceeding of Eighth International Conference on Data Engineering, Tempe, Arizona, Fabruary 1992, pp. 284-292.
    Lu W., Han J. and Ooi B. C., "Discovery of General Knowledge in Large Spatial Databases'', in Proc. of 1993 Far East Workshop on Geographic Information Systems (FEGIS'93), Singapore, June 1993, pp. 275-289.
    Mathsoft Inc., "S-Plus for ArcView GIS - Users Guide Version 1.0" and "S-Plus Spatial Stat.", Data Aalysis Products Division, Seattle, Washington, April 1998.
    Openshaw S., 1995 : "Developing automated and smart spatial pattern exploration tools for geographical information systems applications", The Statistician, Vol. 44, n° 1, pp. 3-16
    Openshaw S., Charlton M., Wymer C., Craft A., 1987 : "A mark 1 geographical analysis machine for the automated analysis of point data sets", International Journal of Geographical Information Systems, Vol. 1, n° 4, pp. 335-358
    Openshaw S., Turton I., 1999, "Geographical Analysis Machine on the internet", http://www/ccg.leeds.ac.uk/smart/gam/gam.html
    Ord J.K., Getis A., 1995 : "Local Spatial Autocorrelation Statistics : Distributional Issues and an Application, Geographical Analysis", Ohio State University Press, Vol. 27, n° 4, pp. 287-306
    Ord J.K., Getis A., 1992 : "The Analysis of Spatial Association by Use of Distance Statistics", Geographical Analysis, Ohio Sate University Press, Vol. 24, n° 3, pp. 189-206
    Pumain D., St-Julien, 1997 : "L'analyse spatiale - 1. Localisation dans l'espace", Armand Colin, Paris, 167 p.
    Rotem D., "Spatial join indices", Proc. of 7th Conf. on Data Engineering, Kobe, Japan, 1991, 500-509
    Valduriez P., "Join Indices", ACM Transactions on Database Systems, 12 (2), June 1987, pp. 218-246.
    Yeh T-S., "Spot: Distance based join indices for spatial data", ACM GIS 99, Kansass City, 5-6 Nov 1999, à Paraitre.
    Zeitouni K., "Etat de l'art sur l'extension du data mining aux bases de données géographiques", Rapport Interne du Laboratoire PRiSM, Université de Versailles-Saint-Quentin, Référence 1999/10, Avril 1999, 26 pages.
    Zeitouni K., "Index de jointures spatiales et application au data mining", Rapport Interne du Laboratoire PRiSM, Université de Versailles-Saint-Quentin, Septembre 1999, à paraître.