Caractérisation de la densité de trafic et de son évolution à partir de trajectoires d'objets...

8
Caractérisation de la densité de trafic et de son évolution à partir de trajectoires d’objets mobiles Ahmed Kharrat Laboratoire PRiSM 45, av. des Etats-Unis 78035, Versailles, France ahmed.kharrat @ prism.uvsq.fr Iulian Sandu Popa Laboratoire PRiSM 45, av. des Etats-Unis 78035, Versailles, France iulian.sandu-popa@ prism.uvsq.fr Karine Zeitouni Laboratoire PRiSM 45, av. des Etats-Unis 78035, Versailles, France karine.zeitouni @ prism.uvsq.fr Sami Faiz Laboratoire LTSIRS Ecole Nationale d’Ingénieurs de Tunis B.P. 37 – 1002, Tunisie [email protected] RESUME La gestion et la fouille de données relatives aux objets mobiles sont devenues un important sujet de recherche ces dernières années. Dans cet article, nous nous intéressons à la fouille de trajectoires d’objets mobiles tels que les véhicules dans le réseau routier. Nous proposons une méthode pour la découverte de chemins denses par regroupement de sections de routes similaires en terme de trafic et de localisation dans une période donnée. Le trafic est estimé à partir des trajectoires spatio-temporelles collectées. Nous proposons également une caractérisation de l’évolution temporelle des chemins denses par un graphe de connexion de chemins à des périodes consécutives. Ce graphe est étiqueté par un degré d’évolution. Pour valider notre approche, nous avons implémenté et testé les algorithmes ainsi proposés, ce qui a permis de montrer son fonctionnement et son efficacité. MOTS CLES : Base d’objets mobiles, fouille de données spatiotemporelle, similarité, clustering, trafic routier. ABSTRACT Managing and mining data derived from moving objects is becoming an important issue in the last years. In this paper, we are interested in mining trajectories of moving objects such as vehicles in the road network. We propose a method for dense route discovery by clustering similar road sections according to both traffic and location in each time period. The traffic estimation is based on the collected spatiotemporal trajectories. We also propose a characterization approach of the temporal evolution of dense routes by a graph of route connection over consecutive time periods. This graph is labelled by a degree of evolution. We have implemented and tested the proposed algorithms, which have shown their effectiveness and efficiency. CATEGORIES AND SUBJECT DESCRIPTORS : H. Information Systems. H.2. Database management. H.2.8. Database applications: Data mining, spatial databases and GIS. H.2.m. Miscellaneous. GENERAL TERMS : Algorithms. KEYWORDS : Moving object databases, spatiotemporal data mining, similarity, clustering, road traffic. INTRODUCTION La gestion d’objets mobiles a connu un regain d’intérêt ces dernières années, encouragée par la disponibilité d’outils de localisation, à travers les téléphones cellulaires, les GPS ou récemment le RFID (Radio Frequency IDentification). Il devient, alors, possible de générer des bases de trajectoires d’objets mobiles à une large échelle. Par exemple, des applications de contrôle et de prévision du trafic utilisent des flottes de véhicules équipés de GPS comme sondeurs du trafic. Leurs relevés GPS (appelés Floating Car Data) alimentent une base de trajectoires d’objets mobiles. Dans ce type de mobilité, comme dans la majorité des cas, le mouvement de l’objet est contraint par le réseau. On parle de trajectoires contraintes par un réseau. Ces applications ont généré de nouveaux problèmes qui ont motivé la recherche sur la gestion d’objets mobiles, en général et sur la fouille de données spatio-temporelle, en particulier [8]. Le clustering de trajectoires fait partie de ces recherches. Dans cet article, nous nous intéressons à la fouille de trajectoires d’objets mobiles tels que les véhicules dans un réseau routier. Nous proposons une méthode pour la découverte de chemins denses par regroupement de sections de routes similaires en terme de trafic et de

Transcript of Caractérisation de la densité de trafic et de son évolution à partir de trajectoires d'objets...

Caractérisation de la densité de trafic et de son évolution à partir de trajectoires d’objets mobiles

Ahmed Kharrat

Laboratoire PRiSM

45, av. des Etats-Unis 78035, Versailles, France

ahmed.kharrat @ prism.uvsq.fr

Iulian Sandu Popa

Laboratoire PRiSM

45, av. des Etats-Unis 78035, Versailles, France

iulian.sandu-popa@ prism.uvsq.fr

Karine Zeitouni

Laboratoire PRiSM

45, av. des Etats-Unis 78035, Versailles, France

karine.zeitouni @ prism.uvsq.fr

Sami Faiz

Laboratoire LTSIRS

Ecole Nationale d’Ingénieurs de Tunis B.P.

37 – 1002, Tunisie

[email protected]

RESUME La gestion et la fouille de données relatives aux objets mobiles sont devenues un important sujet de recherche ces dernières années. Dans cet article, nous nous intéressons à la fouille de trajectoires d’objets mobiles tels que les véhicules dans le réseau routier. Nous proposons une méthode pour la découverte de chemins denses par regroupement de sections de routes similaires en terme de trafic et de localisation dans une période donnée. Le trafic est estimé à partir des trajectoires spatio-temporelles collectées. Nous proposons également une caractérisation de l’évolution temporelle des chemins denses par un graphe de connexion de chemins à des périodes consécutives. Ce graphe est étiqueté par un degré d’évolution. Pour valider notre approche, nous avons implémenté et testé les algorithmes ainsi proposés, ce qui a permis de montrer son fonctionnement et son efficacité.

MOTS CLES : Base d’objets mobiles, fouille de données spatiotemporelle, similarité, clustering, trafic routier.

ABSTRACT Managing and mining data derived from moving objects is becoming an important issue in the last years. In this paper, we are interested in mining trajectories of moving objects such as vehicles in the road network. We propose a method for dense route discovery by clustering similar road sections according to both traffic and location in each time period. The traffic estimation is based on the collected spatiotemporal trajectories. We also propose a characterization approach of the temporal evolution of

dense routes by a graph of route connection over consecutive time periods. This graph is labelled by a degree of evolution. We have implemented and tested the proposed algorithms, which have shown their effectiveness and efficiency.

CATEGORIES AND SUBJECT DESCRIPTORS : H. Information Systems. H.2. Database management. H.2.8. Database applications: Data mining, spatial databases and GIS. H.2.m. Miscellaneous.

GENERAL TERMS : Algorithms.

KEYWORDS : Moving object databases, spatiotemporal data mining, similarity, clustering, road traffic.

INTRODUCTION La gestion d’objets mobiles a connu un regain d’intérêt ces dernières années, encouragée par la disponibilité d’outils de localisation, à travers les téléphones cellulaires, les GPS ou récemment le RFID (Radio Frequency IDentification). Il devient, alors, possible de générer des bases de trajectoires d’objets mobiles à une large échelle. Par exemple, des applications de contrôle et de prévision du trafic utilisent des flottes de véhicules équipés de GPS comme sondeurs du trafic. Leurs relevés GPS (appelés Floating Car Data) alimentent une base de trajectoires d’objets mobiles. Dans ce type de mobilité, comme dans la majorité des cas, le mouvement de l’objet est contraint par le réseau. On parle de trajectoires contraintes par un réseau.

Ces applications ont généré de nouveaux problèmes qui ont motivé la recherche sur la gestion d’objets mobiles, en général et sur la fouille de données spatio-temporelle, en particulier [8]. Le clustering de trajectoires fait partie de ces recherches.

Dans cet article, nous nous intéressons à la fouille de trajectoires d’objets mobiles tels que les véhicules dans un réseau routier. Nous proposons une méthode pour la découverte de chemins denses par regroupement de sections de routes similaires en terme de trafic et de

localisation dans une période donnée. Le trafic est, ainsi, estimé à partir des trajectoires spatio-temporelles collectées. Nous proposons également une caractérisation de l’évolution temporelle des chemins denses par un graphe de connexion de chemins à des périodes consécutives.

Découvrir les chemins les plus denses sur le réseau et suivre, voire prédire, leur évolution dans le temps peut être très utile dans plusieurs applications. Ci-dessous trois scénarios d’applications :

1. La connaissance et la prévision du trafic routier : avec l’augmentation régulière du trafic, il est important de modéliser la densité sur le réseau routier afin, par exemple, d’améliorer la navigation et la planification de trajets.

2. Le covoiturage : appelé à se développer pour répondre aux besoins économiques (augmentation des prix du pétrole), écologiques (pollution liée au transport) et logistique (difficulté d’offrir des transports en commun face à la diversification de la demande), le covoiturage pourrait se baser sur les chemins les plus fréquentés habituellement.

3. La planification de transport : à sa création, chaque route est prévue pour un certain usage. La découverte de zones denses à partir de trajectoires réelles permettrait d’évaluer l’adaptation de l’infrastructure routière à son utilisation courante.

Il existe de nombreux travaux sur l’analyse et la fouille de trajectoires d’objets mobiles. Seulement, la plupart n’exploitent guère l’aspect structurant du réseau sous-jacent lorsque la mobilité est contrainte. En effet, les trajectoires sont étroitement liées au réseau et les zones de densité dépendent à la fois du nombre d’objets mobiles et de la structure (topologie) du réseau. De plus, ces zones denses évoluent dans le temps et la mise en évidence des relations temporelles entre ces zones du réseau est une connaissance intelligible, qui à notre connaissance, a été rarement étudiée auparavant. Notre objectif est double. Le premier est de découvrir des zones (chemins) denses par agrégation des trajectoires d’objets mobiles sur le réseau à des périodes différentes. Le second est de structurer ces chemins denses en les liants dans un graphe d’évolution.

Notre approche se base sur deux idées clés. La première est que la connaissance de la densité du trafic sur le réseau permettrait de guider le groupement des sections de routes formant des chemins denses sur chaque unité temporelle. La seconde est que les chemins denses sont liés dans le temps et que ces liens pourraient caractériser l’évolution de la densité sur le réseau.

Plus exactement, dans un premier temps, nous définissons la similarité entre sections de routes et l’utilisons pour les grouper en chemins denses. Ce

groupage est opéré pour différentes périodes (intervalles de temps) prédéfinies. Dans un deuxième temps, nous comparons les chemins denses deux à deux dans des intervalles de temps consécutifs afin de découvrir leur lien éventuel, ce qui génère un graphe orienté formalisant les évolutions entre chemins denses dans le temps. Une mesure d’évolution est proposée à ce stade reflétant un degré d’évolution du chemin.

En résumé, les contributions de cet article concernent :

- La définition de nouvelles fonctions de similarité.

- La proposition d’une méthode de groupage de sections de routes basée sur la densité du réseau. Cette méthode tient compte du sens de la trajectoire sur la route. En outre, elle tire profit des propriétés du réseau pour générer des groupes pertinents.

- La proposition d’une mesure d’évolution entre deux états d’un chemin dense de deux intervalles de temps successifs.

- La proposition d’un graphe d’évolution permettant de capturer de manière synthétique et d’interroger l’évolution de la densité sur tout le réseau.

- La description de l’implémentation de notre approche ainsi que les résultats de tests sur des données synthétiques largement utilisées dans les bases d’objets mobiles.

Le reste de cet article est organisé comme suit. Nous proposons dans la section 2 un état de l'art. Nous donnons ensuite quelques concepts préliminaires. Nous présentons dans la section 4 la première partie de l'algorithme pour le clustering des sections de routes. La deuxième partie de l'algorithme est décrite dans la section 5. Enfin, nous concluons et proposons des pistes pour la poursuite de cette recherche, à la section 6.

ETAT DE L’ART De nombreux travaux sont en rapport avec notre approche. On peut les classer en trois volets. Le premier regroupe les travaux dédiés à la découverte de la densité. Le deuxième volet est relatif à la similarité de trajectoires et leur représentation. Enfin, les algorithmes de clustering de trajectoires forment le dernier volet.

Analyse de la densité Li et al. [14] visent la découverte de chemins les plus fréquentés. En ce sens, ce travail est similaire en partie à notre approche. Ils proposent de grouper des sections de routes en se basant sur la densité du trafic partagé pour former les chemins les plus fréquentés sur le réseau. Ce travail, bien que semblable à la première partie de notre approche, est limité à un chemin entre deux points donnés et ne tient pas compte de l’évolution de la densité dans le temps.

D’autres travaux portent sur la densité continue d’objets mobiles comme celui de Lai et al. [12]. Mais, ce dernier ne considère que la densité courante et non à son historique, comme dans notre cas.

Similarité de trajectoires Les mesures de similarités sont définies pour une représentation particulière des trajectoires. La représentation géométrique [12] donnée par un ensemble de points horodatés est la plus courante et s’adapte à la similarité de trajectoires non contraintes (ou libres). Il est également possible de représenter les trajectoires sous forme symbolique par référence à des lieux prédéfinis [4], [9], [24]. Ce mode de représentation est particulièrement adapté aux trajectoires contraintes. En effet, si l’on connaît d’avance la géométrie et la topologie du réseau, il suffit de décrire la trajectoire par la liste ordonnée des sections traversées. Néanmoins, ces modèles ne renseignent pas l’instant auquel l’objet est passé d’une section à une autre.

Dans le contexte de trajectoires libres, Yanagiswa et al. [25] proposent une similarité basée sur la forme et unifie la similarité spatiale et spatio-temporelle. Shim et Chang [20] considèrent la similarité de sous-trajectoires et proposent un algorithme de distance K-warping. Lin et al. [15] ne considèrent que l’aspect spatial dans leur calcul de similarité et proposent une nouvelle distance OWD (One Way Distance). On trouve des travaux similaires dans [22], [19] et [3]. Vlachos et al. [23] s’intéressent aux valeurs extrêmes (outliers) qui dégradent les performances de la distance euclidienne et à la déformation temporelle (time warping). Ils proposent une fonction de distance non métrique basée sur l'algorithme de la plus longue sous-séquence commune (LCSS) en conjonction avec la fonction SigmoidMatch pour l’alignement de séquences de deux trajectoires. Zeinalipour-Yazti et al. [26] introduisent une similarité spatiotemporelle distribuée basée également sur la LCSS et proposent deux nouveaux algorithmes offrant de meilleures performances. Enfin, Elnekave et al. [5] proposent une mesure de similarité basée sur des boîtes englobantes minimums pour approximer des trajectoires en 3D.

Ces méthodes ne sont pas appropriées au calcul de similarité sur le réseau routier. Elles se basent sur la distance euclidienne et non la distance réelle par la route. Parmi les travaux sur la similarité dans le contexte des trajectoires liées au réseau, Hwang et al. [10] ont été les premiers à proposer une mesure de similarité basée sur la distance spatiotemporelle entre deux trajectoires intégrant la distance par la route. L'algorithme de recherche de trajectoires similaires se compose de deux étapes : l'étape de filtrage basée sur la similarité spatiale sur le réseau routier et l'étape de raffinement pour la recherche de trajectoires similaires également dans le temps. Tiakas et al. [21] et Chang et al. [2] proposent un algorithme de recherche de trajectoires similaires

utilisant une distance spatiotemporelle basée sur le réseau routier.

Clustering de trajectoires Le clustering est, à l’origine, une technique de fouille de données largement utilisée dans des applications telles que les études marketing, l'analyse financière ou encore le traitement d'images. Plusieurs types d'algorithmes de clustering ont été proposés dont K-means [16], BIRCH [27], DBSCAN [6] et OPTICS [1]. Les recherches récentes sur le clustering de trajectoires d'objets mobiles ont utilisé ces algorithmes en les adaptant au domaine étudié [13]. Nous citons quelques uns de ces travaux.

Gaffney et Smyth [7] proposent un modèle de mixture de régression probabiliste pour représenter les trajectoires et utilisent l'algorithme EM pour le clustering. Cette méthode génère des groupe de trajectoires entières et non de sous-trajectoires. De plus, elle ne tient pas compte de la mobilité contrainte. Lee et al. [13] proposent un algorithme appelé TRACLUS qui groupe des sous-trajectoires similaires dans chaque cluster. Il comporte deux phases : le partitionnement des trajectoires en segments de droites et le groupage de ces derniers selon leurs similarités. TRACLUS ne considère pas l’aspect temporel. Nanni et Pedreschi [17] proposent une adaptation de l’algorithme OPTICS pour le clustering de trajectoires en se basant sur une distance euclidienne entre les positions de deux trajectoires à des instants identiques. Ils proposent deux versions : T-OPTICS qui considère les trajectoires complètes et TF-OPTICS qui groupe des sous-trajectoires. Néanmoins, ces deux derniers travaux ne considèrent pas la mobilité contrainte. D’autres travaux ont traité du clustering de trajectoires [18] adapté aux trajectoires dans des données vidéo. Leur méthode s’applique au contexte temps réel.

Dans [11], nous avons proposé un algorithme de clustering de trajectoires sur un réseau en deux étapes : l’étape 1 groupe des sections de routes adjacentes et similaires en densité pour former des chemins denses, quant à la seconde étape, elle groupe les trajectoires par similarité aux chemins denses. Cette méthode ne tenait pas compte du temps. L’approche présentée ici se base en partie sur l’étape 1 tout en l’étendant à un découpage temporel.

PRELEMINAIRES Ce travail s’inscrit dans le contexte d’objets mobiles contraints par le réseau routier. Plus précisément, nous nous appuyons sur l’historique d’objets mobiles représentant des trajectoires. Ces derniers décrivent l’évolution dans l’espace et dans le temps des objets.

Nous présentons tout d’abord dans la section 3.1 le modèle de représentation de données adopté. Nous détaillons, ensuite, notre mesure de similarité spatiale et temporelle dans la section 3.2.

Représentation des données La représentation du réseau est donnée par l'ensemble de sections de routes. Le réseau routier est représenté par un graphe routier défini comme suit.

Définition 1 : Un réseau routier est graphe orienté GR (N, S) où N l’ensemble de nœuds correspond aux intersections de routes et S l’ensemble des arcs, correspond à des sections de route orientées.

Pour les trajectoires proprement dites, nous adoptons une représentation symbolique, extension de celles utilisées dans [24]. En effet, nous rajoutons la référence à l’intervalle de temps.

Définition 2 : Une trajectoire contrainte est définie par :

Tr = (Tid , <(S1,ts1), …………..,(Sn,tsn)>) avec Si ∈ S, telle que Tid est un identifiant (Tid), Si est une section de route traversée et tsi est l’instant où la trajectoire Tid est entrée dans la section Si.

Connaissant l'ensemble des trajectoires, nous calculons une matrice de transitions associée au réseau routier pour chaque intervalle de temps, comme illustré par la figure 1. Celle-ci fournit des statistiques sur les passages aux carrefours et les mouvements tournants, en reportant le nombre de trajectoires qui transitent d’une section à une section adjacente par intervalle de temps.

Définition 3 : Une matrice de transition à l’intervalle de temps t est une matrice pondérée Mt telle que Mt(i,j) correspond au nombre de trajectoires passant de la section Si vers la section Sj dans l’intervalle de temps t (t ∈ {1,…,l}, où l est le nombre d’intervalles de temps).

On note également Sij le passage de la section Si à la section Sj.

⎥⎥⎥

⎢⎢⎢

023070150100

3

2

1

SSS

It1

⎥⎥⎥

⎢⎢⎢

0550250400350

3

2

1

SSS

It2

⎥⎥⎥

⎢⎢⎢

014010040170

3

2

1

SSS

It3

Figure 1 : Matrices de transitions

Critères de similarités Similarité de sections. La similarité constitue la base de l’opération de clustering. C’est le cas du clustering de sections ou plutôt des transitions à grouper en chemins

denses. Nous définissons ci-dessous la similarité entre transitions adjacentes comme la différence de leur effectif.Définition 4 : Soient Sij, Suv, deux transitions. La similarité de transitions est définie par :

Sim_route (Sij, Suv) = |M(i,j) – M(u,v)| lorque i=v ou j=u Sim_route (Sij, Suv)) = 0 sinon.

Similarité de chemins. Nous définissons une autre mesure de similarité : entre chemins denses. Elle permet de comparer les chemins denses. Elle traduit l’intersection entre deux chemins à des intervalles de temps consécutifs. Définition 5 : La similarité de deux chemins c et c’ est : Sim_chemin (c, c’) = 1 ssi c ∩ c’ ≠ ∅ et c et c’ correspondent à des intervalles de temps successifs. Sim_chemin (c, c’) = 0 sinon.

CLUSTERING DE SECTIONS L’algorithme proposé est appelé NETSCAN. Il effectue le clustering des sections denses et les agrège en formant des chemins denses. Il est conçu sur le principe de densité introduit dans l’algorithme DBSCAN [6] en l’appliquant sur des sections de routes. Il prend en entrée l’ensemble de sections qui constituent le réseau routier, les matrices de transitions spatiotemporelles associées à chaque intervalle de temps (cf. section 3.1), un seuil α de densité et un seuil ε de similarité entre les densités des transitions. NETSCAN regroupe les sections où transite le maximum d’objets mobiles en premier (les transitions les plus denses). Il regroupe, ensuite, les transitions connexes dans l’espace dont les densités sont similaires, constituant ainsi des chemins denses. Pour ce faire, le processus commence par la transition ayant la densité maximum. Ensuite, le groupage s’étend aux transitions connexes dans les deux sens pour chercher celles ayant une densité proche à ε près. Ainsi, de proche en proche, on génère un « chemin dense ». Pour éviter la réutilisation des transitions figurant dans des chemins denses, on les marque dès leur affectation.

------------------------------------------------ Algorithme NETSCAN

Entrée : - Ensemble de sections S = {S1, S2, …, Snbsections} - Ensemble de matrices de transitions M = {M1, M2…..Mk} --

avec k = nombre d’intervalles de temps donné par l’utilisateur.

- Seuil ε -- écart maximal de densité entre sections voisines. - Seuil α - densité de transition minimum considérée.

Sortie : - Groupes de chemins E = < CH1, CH2, …, CHk > avec CH = <ch1, ch2…chnbchemins>

1. E ∅ -- Initialisation 2. CH ∅ 3. pour chaque intervalle de temps s ∈ k 4. tant qu’il existe des transitions ms(i, j) >= α non utilisées 5. -- générer un chemin dense à partir de la transition maximum 6. C <Sd, Sf> telle que Ms (d, f) = max (Ms (i, j)) 7. extension_droite (C) – extension en avant 8. extension_gauche (C) -- extension en arrière

S1 S2

S3

It1 ≈ 10 It2 ≈ 35 It3 ≈ 17

It1 ≈ 7 It2 ≈ 25 It3 ≈ 10

It1 ≈ 15 It2 ≈ 40 It3 ≈ 4

It1 ≈ 23 It2 ≈ 55 It3 ≈ 14

9. ajouter C to CHs 10. ajouter CHs to E 11. fin tant que 12. fin pour 13. retourner E

Procédure extension_droite (C) 1. tant qu’il existe u tel que ms(f, u) >= α et non utilisé 2. chosir ms(f, f_succ) tel que |ms(d, f) – ms(f, u)| est minimum 3. si | ms(d, f) – ms(f, f_succ)| <= ε 4. inserer tête (C, Sf_succ) 5. d f ; f f_succ -- extension de chemin 6. fin si 7. fin tant que Procédure extension_gauche (C ) 1. tant qu’il existe u telque ms(u, d) >= α et non utilisé 2. choisir ms (d_préd, d) tel que |ms(d, f) – ms(u, d)| est minimum 3. si | ms(d, f) – ms(u, d)| <= ε 4. inserer Queu (C, Sd_préd) 5. f d; d d_pred -- extension de chemin 6. fin si 7. fin tant que

Figure 2 : Clustering de sections en chemins denses

L'extension du chemin dense se fait dans les deux sens si les conditions sont remplies, à savoir le non marquage de la transition à traiter et le respect des seuils de densité1 α et de similarité ε. Les clusters de sections obtenus correspondent aux chemins les plus denses sur le réseau. Cette procédure est refaite pour chaque intervalle de temps. La figure 2 détaille l’algorithme NETSCAN.

Tout comme les trajectoires, les chemins denses sont représentés sous forme de séquences de sections (cf. section 3.1). Chaque section est identifiée par un symbole.

EVOLUTION DES CHEMINS DENSES Cette section présente la deuxième étape DENSITYLINK correspondant à la découverte des liens entre chemins denses à des périodes successives.

L’algorithme DENSITYLINK (cf. Figure 3) permet de caractériser l’évolution des zones denses. Par exemple, révéler le déplacement, extension, réduction, apparition ou disparition de zones de densité au cours du temps. Il se base sur les chemins denses obtenus par l'algorithme NETSCAN décrit précédemment et construit un graphe liant des chemins denses. Deux chemins sont directement liés dans ce graphe s’ils partagent le même endroit du réseau à des périodes consécutives. Ainsi, il est possible de trouver l’origine d’une zone de densité (afin d’y remédier, par exemple), ou de connaître ses effets (afin de prédire la densité future).

Définition 6 : Un graphe d'évolution G (C, E, W) est tel que C l’ensemble de nœuds, référence les chemins denses, E l’ensemble des arcs où (c, c') ∈ E ssi Sim_chemin (c, c’) = 1 et W l’ensemble d’étiquettes w décrit l'évolution entre les chemins c et c’.

1 Ce seuil de densité peut être variable par transition et être

fonction de la capacité en terme de trafic de chaque transition. Pour plus de simplicité, cet article considère le même seuil, ce qui correspond aux chemins les plus fréquentés.

------------------------------------------------

Algorithme DENSITYLINK

Entrée : Groupes de chemins E = < CH1, CH2, …, CHk > avec CH = <c1, c2…cnbchemins>

Sortie : Graphe d’évolution G= (C,E)

1. G ∅ ; 2. Soit I l’ensemble des intervalles de temps avec I={0, 1, ..., n} 3. Pour chaque chemin c ∈ CHi faire : 4. Si ∃ c’ ∈ CHi+1 tels que c ∩ c’ ≠ ∅ 5. Calculer Evolution (c, c’) 6. C ← C ∪ {c, c’} -- Ajouter un nouveau nœud à G 7. E ← E ∪ {(c, c’)} -- Ajouter une nouvelle arête à G 8. W ← W ∪ {Evolution(c, c’)} -- Ajouter un nouveau poids à G 9. Fin si 10. Retourner G Procédure Evolution (c i ET c i+1) 1. Soit S l’ensemble de sections de routes de c et S’ l’ensemble de section de routes de c’ 2. Évaluer le degré d'évolution entre deux routes: 3. Evol- = ((S ∩ S’) - S) / (S ∩ S’) 4. Evol+ = (S - (S ∩ S’)) / (S) 5. w ← (Evol- , Evol+) 6. retourner w

---------------------------------------------------------------------- Figure 3 : Graphe d’évolution des chemins denses

L’algorithme prend en entrée l’ensemble des chemins denses répartis sur les différents intervalles de temps. Il permet de suivre l’évolution de ces chemins au cours du temps. Pour ce faire, on cherche pour chacun des chemins denses dans un intervalle de temps itn les chemins qui lui sont similaires dans l’intervalle itn+1. Cette similarité se base sur le partage d’une section comme cela a été défini dans la section 3.2. Le résultat final est un graphe où chaque nœud représente un état de chemin dense et chaque arc représente son évolution dans le temps. Chaque arc du graphe est étiqueté par deux mesures d’évolution. La première consiste en un pourcentage de sections de route en moins par rapport à l’état initial du chemin et la deuxième est le pourcentage de sections de route en plus par rapport à cet état. Ces mesures peuvent renseigner sur le degré de changement d’un chemin dense : extension, réduction, déplacement ou absence de changement.

Durant le temps, un chemin dense peut évoluer et changer de forme comme il peut aussi disparaitre. Plusieurs scénarios d’évolution sont possibles (la figure 4 illustre quelques exemples) :

- Un chemin dense dans Itn+1 peut être formé par la fusion de deux ou plusieurs autres chemins dans Itn (c → b).

- Un chemin dense à l’intervalle Itn peut être divisé en deux ou plusieurs chemins à Itn+1 (b → c).

- Un chemin dense à Itn peut disparaître à Itn+1 (b → a).

- Un chemin dense peut naître à Itn+1 (a → b).

Etat - a - Etat - b -

Etat - c -

Figure 4 : Différents états subis par un chemin dense TESTS ET VALIDATION Dans cette section, nous évaluons l'efficacité de nos algorithmes en décrivant les données et l'environnement de travail. Nous discutons et interprétons également dans cette section les résultats de notre expérimentation.

Configuration et données de base Les algorithmes NETSCAN et DENSITYLINK ont été implémentés en Java et tous les tests ont été effectués sur un PC fonctionnant sous Windows XP professionnel. La configuration matériel est comme suit : Processeurs AMD Athlon TM 64 X 2 dual Core 2 GHZ, 1.5 giga octet de mémoire RAM et 80 giga-octets de disque dur. Nous utilisons Oracle 10g comme serveur de données.

La trajectoire d’un objet mobile peut être obtenue à partir de plusieurs sources, telles que les données de flottes de véhicules, mais celles-ci sont généralement des données propriétaires et leur accès est limité. Il est donc préférable d'utiliser pour la validation et l’expérimentation une source de données publique, quitte à ce qu’elles soient simulées. Dans le contexte des objets mobiles contraints, le générateur développé par Brinkhoff est le plus utilisé pour l'évaluation et les tests (Brinkhoff, 2002) dans les travaux sur les bases d’objets mobiles. Ce générateur simule des déplacements d’objets mobiles à différentes vitesses.

Implémentation Les tests sont basés sur des réseaux routiers de tailles et de formes différentes. Celui de la ville d’Oldenburg comprend 7035 segments de routes et 6105 nœuds, tandis que le réseau de San Joaquin, il comprend 24123 segments de routes et 18496 nœuds et se caractérise par des concentrations locales de sections de routes (c.f.

Figure 5). Nous appliquons le générateur de Brinkhoff pour générer différents jeux de trajectoires d’objets mobiles sur ces deux réseaux routiers. Ensuite, nous calculons les matrices de transition pour chaque réseau et pour chaque jeux de données. Plus précisément, pour chaque transition (i, j) dans la matrice, nous comptons les occurrences d’objets mobiles la traversant comme présenté dans la figure 1. L'algorithme NETSCAN a été implémenté et testé selon différentes configurations. Nous avons simulé différents changements de densité dans le temps en divisant l’intervalle de temps total en cinq partities. Nous avons fait varier le nombre d’objets mobiles entre 1000 et 10000.

a - Oldenburg b - San Joaquin

Figure 5 : Réseaux routiers Résultats expérimentaux Nous constatons que le nombre de transitions ayant un trafic dense (une valeur élevée de transitions) est très limité, comparé à celui des transitions de moindre densité. La figure 6 montre la densité du trafic routier sur la carte d’Oldenburg pour les cinq intervalles de temps. Le nombre total d’objets mobiles dans ce test est d’environ 3500. On peut remarquer visuellement sur la figure que la densité diminue en allant de la première période temporelle à la quatrième et qu’elle commence à augmenter dans la dernière période.

a – intervalle de temps 1 b – intervalle de temps 2

c – intervalle de temps 3 d – intervalle de temps 4

e – intervalle de temps 5 Figure 6 : Evolution de la densité sur le réseau d’Oldenburg

Nous avons évalué l’impact des différents paramètres de l’expérimentation sur les résultats. En effet, la densité sur le réseau dépend de plusieurs critères. Tout d’abord, elle dépend du nombre d’objets mobiles sur le réseau. Ensuite, elle varie selon la taille et la forme du réseau. En effet, nous observons une différence de densité en prenant le même nombre d’objets mobiles sur deux réseaux différents. Par exemple, avec 1000 trajectoires, le nombre de chemins denses est 119 pour Oldenburg et 55 pour San Joaquin (cf. figure 7). L’écart relatif se réduit néanmoins lorsqu’on augmente le nombre de trajectoires. L’évaluation de la densité dépend enfin des paramètres de l’algorithme choisis par l’utilisateur, comme le montre la figure 8. Le premier paramètre α est le seuil de densité par transition et ε l’écart minimal de densité entre sections voisines dans un chemin dense.

Figure 7 : Impact du réseau sur le nombre de chemins dense

Figure 8 : Impact du seuil de densité - réseau d’Oldenburg

Les résultats obtenus par cette expérimentation, représentés par des graphes, tracent l’évolution de

chemins denses à travers le temps. La figure 9 montre l’état du réseau San Joaquin durant le premier (a) et le troisième (b) intervalle de temps ainsi que le graphe correspondant (c).

Dans un but de lisibilité, nous n’affichons pas le détail des sections en plus ou en moins pour étiqueter les liens, mais simplement un pourcentage de sections en plus ou en moins. A travers cet exemple, on constate différents types d’évolution : des divisions de chemins denses, comme pour les chemins 20 et 55 ; une fusion pour former le chemin 50 ; ainsi que l’absence d’évolution entre les chemins (identiques) 42, 62 et 75 entre l’intervalle de temps it3 et it5.

a - intervalle de temps 1 b - intervalle de temps 3

c- graphe d’évolution

Figure 9: Graphe d’évolution

CONCLUSION ET PERSPECTIVES Nous avons proposé une nouvelle approche pour la fouille de données spatio-temporelles. Celle-ci s’inspire du clustering basé densité et l’adapte aux réseaux routier afin d’en extraire des chemins denses (les clusters). Ces chemins sont ensuite organisés en graphe d’évolution qui reflète la variation temporelle des zones de densité. Nous avons décrit les concepts sous-jacents à notre approche, les algorithmes ainsi que leur implémentation et les

résultats de l’expérimentation. A notre connaissance, notre approche est originale et est utile dans de multiples applications.

Afin d’exploiter plus aisément les résultats, il serait utile de coupler cet algorithme avec des outils de visualisation interactifs permettant de naviguer et d’interagir entre le graphe et les cartes. Sur un plan fonctionnel, il serait intéressant de découvrir automatiquement, ou en assistant l’utilisateur, le découpage temporel pertinent pour les matrices de transitions. On peut se baser pour cela sur un histogramme spatio-temporel avec une granularité temporelle plus fine que dans la matrice à construire. Une autre perspective est d’utiliser ces graphes dans la prédiction globale du trafic (par zones) ou même pour la prédiction de mobilité d’un objet mobile en temps réel (requêtes prédictives).

BIBLIOGRAPHIE 1. Ankerst M., M. M. Breunig, H.-P. Kriegel et J. Sander

(1999) OPTICS: Ordering Points to Identify the Clustering Structure, In Proc. ACM SIGMOD Int'l Conf. on Management of Data, Philadelphia, Pennsylvania, pp. 46-60.

2. Chang J-W., R. Bista, Y-C. Kim et Y-K Kim (2007) Spatio-temporal Similarity Measure Algorithm for Moving Objects on Spatial Networks. ICCSA 2007, pp.1165-1178.

3. Chen L., M.T. Ozsu et V. Oria (2005) Robust and Fast Similarity Search for Moving Object Trajectories. In: ACM SIGMOD, pp. 491-502. ACM Press, New York.

4. Du Mouza C. (2005) Patterns de mobilité. Thèse du conservatoire national des arts et métiers, p. 51-66.

5. Elnekave S., Last M. et Maimon O. (2008) Measuring Similarity Between Trajectories of Mobile Objects. In: Proc. Studies in Computational Intelligence, pp 101-128.

6. Ester M., H.-P. Kriegel, J. Sander et X. Xu (1996) A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, In Proc. 2nd Int'l Conf. on Knowledge Discovery and Data Mining, Portland, Oregon, pp. 226-231.

7. Gaffney S. et P. Smyth, (1999) Trajectory Clustering with Mixtures of Regression Models, In Proc. 5th ACM SIGMOD Int'l Conf. on knowledge Discovery and Data Mining, San Diego, California, pp. 63-72.

8. Giannotti F., Pedreschi D. (2008) Mobility, Data Mining and Privacy: Geographic Knowledge Discovery, Springer.

9. Hadjieleftheriou M., G. Kollios, P. Bakalov, V. Trotras (2005) Complex Spatio-Temporal Pattern Queries. In VLDB’05.

10. Hwang J-R., H-Y. Kang et K-J. Li (2005) Spatio-temporal Analysis Between Trajectories on Road Networks. ER’05, LNCS 3770, pp. 280-289.

11. Kharrat A., K. Zeitouni, I. Sandu-Popa et S. Faiz (2008) Clustering Algorithm for Network Constraint Trajectories, In 13th International Symposium on Spatial Data Handling, SDH, Montpellier, France.

12. Lai C., Wang L., Chen J., Meng X., Zeitouni K. (2007) Effective Density Queries for Moving Objects in Road

Networks, In Proc. APWeb/WAIM’07, LNCS 4505, Huangshan, China.

13. Lee J-G, J. Han et K-Y. Whang (2007) Trajectory Clustering: A Partition-and-Group Framework. In Proc.SIGMOD'07, Beijing, China.

14. Li X., Han J., Lee J. et Gonzalez H. (2007) Traffic Density-Based Discovery of Hot Routes in Road Networks. In:Proc. Of the 10th International Symposium on Spatial and Temporal Databases (SSTD), Boston, pp. 441-459.

15. Lin B., Su J. (2005) Shapes Based Trajectory Queries for Moving Objects. GIS, pp. 21-30.

16. Lloyd S. (1982) Least Squares Quantization in PCM, IEEE Trans. on Information Theory, 28(2): 129-137.

17. Nanni M., Pedreschi D. (2006),Time-focused density-based clustering of trajectories of moving objects. In Journal of Intelligent Information Systems (JIIS), 27(3):267-289.

18. Piciarelli C. et Foresti G.L. (2006) On-line trajectory clustering for anomalous events detection. In: Proc. Pattern recognition letters, pp. 1835-1842.

19. Sakurai Y., M. Yoshikawa et C. Faloutsos (2005) FTW: Fast Similarity Search Under the Time Warping Distance. In: PODS, pp. 326-337.

20. Shim C-B et J-W Chang (2003) Similar Sub-Trajectory Retrieval for Moving Objects in Spatiotemporal Databases. In: Proc. of the 7th EECADIS, pp.308-322.

21. Tiakas E., A. N. Papadopoulos, A. Nanopoulos et Y. Manolopoulos (2006) Trajectory Similarity Search in Spatial Networks. In : Proc. of the 10th IDEAS, pp. 185-192.

22. Vlachos M., D. Gunopulos et G. Kollios (2002) Robust Similarity Measures of Mobile Object Trajectories. In: Proc. of the 13 th Intl. Workshop on DEXA, IEEE Computer Society Press, Los Alamitos pp. 721-728.

23. Vlachos M., G. Kollios et D. Gunopulos (2002) Discovering Similar Multidimensional Trajectories. In: Proc. Of the 18th ICDE. IEEE Computer Society Press, Los Alamitos pp. 673-684.

24. Wan T., K. Zeitouni (2005) Modélisation d'objets mobiles dans un entrepôt de données. EGC 2005: pp. 343-348.

25. Yanagisawa Y., J. Akahani, T. Satoch (2003) Shape-Based Similarity Query for Trajectory of Mobile Objects. In : Proc. Of the 4th Intl. Conf. On MDM, pp. 63-77.

26. Zeinalipour-Yazti D., S. Song Lin, D. Gunopulos (2006) Distributed Spatio-Temporal Similarity Search. CIKM, pp. 14-23.

27. Zhang T., R. Ramakrishnan et M. Livny (1996) BIRCH: An Efficient Data Clustering Method for Very Large Databases. In Proc. ACM SIGMOD Int'l Conf. on Management of Data, Montreal, Canada, pp. 103-114.