Contexte

Nous assistons aujourd’hui à une explosion sans précédent des volumes de données générés par des capteurs ou des équipements mobiles. Selon des études publiées, le volume global du trafic de données mobiles va excéder 107 exaoctets en 2017. Ce volume excédera de 8 fois le volume de 2012. La maîtrise de cette déférlante de données, souvent appelé Big Data, est devenue un enjeu commercial (par les instruments de plus-value qu’elle offre) et un enjeu sociétal (par les risques qu’elle induit sur les comportements et la vie privée).

En 2011, plus d’un milliard de personnes utilisaient déjà un Smartphone ; ils sont progressivement enrichis d’un nombre incalculable de capteurs et d’objets intelligents (robots, radars, satellites, systèmes de surveillance ou de commande). L’interconnexion de ces équipements, directement par réseaux sans fil ou indirectement via Internet, off re un champ d’application jusque-là insoupçonné. Chaque Smartphone est à la fois une source génératrice de données, un terminal d’accès à des sites ou des bases de données distantes et un instrument de commande (action à distance sur des équipements de sécurité ou des équipements de chauff age par exemple). La mobilité des utilisateurs et l’ubiquité des systèmes sont devenus des normes de fonctionnement. Différents termes sont utilisés, même s’ils ne recouvrent pas toujours une réalité identique, pour décrire ce couplage entre monde physique et monde numérique : le Web des capteurs, l’Internet des objets, l’intelligence ambiante, les systèmes ubiquitaires, l’informatique mobile, etc.

Les systèmes d’information sous-jacents à ces nouveaux modes d’interaction et aux applications associées, sont constitués de flux de données diff usés selon des fréquences variables, persistant partiellement dans des mémoires contraintes ou totalement dans des entrepôts gigantesques. Pour valoriser ces informations, il est important de les rapprocher et de les confronter avec d’autres sources de données comme, par exemple, des référentiels géographiques, des contenus multimédia, des méta données, des connaissances de domaines ou des ontologies thématiques, ou de façon générale les données du Web (en particulier les données ouvertes -Open Data- ) et les données sémantiques ou les connaissances. Cette valorisation se fait par des chaînes de traitement complexes (workflows) pour obtenir des produits informationnels à forte valeur ajoutée (indicateurs, connaissances, comportements, patterns,...). 

 

Thématiques de recherche 

 

Gestion de données spatio-temporelles et de données ambiantes:

Les nouvelles formes de collecte par les citoyens de données participatives (mobile crowdsourcing, véhicules traceurs) ou implicites (localisation de téléphones mobiles) ont un impact considérable sur la gestion et la planification urbaine (mobile sensing). Ces données forment un gisement de connaissances continuellement mis à jour à une échelle jamais égalée. Mais leur exploitation eff ective reste limitée aujourd’hui malgré de nombreux projets ayant vu le jour. En eff et, cela nécessite des modèles qui capturent leur sémantique, notamment spatiale et temporelle, mais aussi la généralisation à la volée (des mesures brutes) et leur intégration avec des référentiels géographiques, leur requêtage ainsi que la fouille de ces traces. Les observations mobiles sont habituellement exploitées en centralisé par une organisation qui collecte, agrège et off re des services à partir de ces données (Google map  ouWaze  en sont un exemple pour la collecte de données sur le trafic). Cette exploitation de traces de localisation se heurte au problème de la protection des données personnelles. Mais sans traces, il est diffi cile d’off rir le service. Pour répondre à ces problèmes, nous étudions diff érentes architectures permettant d’off rir des services mobiles en temps réel et d’analyser l’historique, en limitant les accès centralisés.

Architectures et sémantique de l’intégration de données ambiantes: 

L’intégration de données ambiantes est caractérisée principalement par la mobilité des sources de données et des utilisateurs, la connexion/déconnexion dynamique des sources, la production de données en flux et la corrélation de ces flux avec des BD de références et avec le contexte de l’utilisateur pour mieux appréhender leur sémantique. Nous nous intéressons aux nouvelles architectures d’intégration de ces données, à l’expression et la sémantique des requêtes continues, à l’exécution optimale de ces requêtes et à l’évaluation de la qualité des informations produites. 

Requêtes analytiques et complexes, fouille de masses de données:  

 

L’analyse de masses de données (Big Data Analytics) recouvre l’ensemble des modèles de calcul sur de grands volumes de données (contenus dans les entrepôts, provenant de capteurs, résultant de la simulation ou d’expériences scientifiques) pour en extraire des indicateurs, des objets, des règles, des patterns, explicitant la connaissance cachée dans ces masses de données. Cette connaissance ne peut être obtenue par une recherche d’information classique. La découverte de cette connaissance cachée est devenue aujourd’hui un enjeu économique et scientifique majeurs. 

Dans ce contexte, nous nous intéressons aux requêtes multi-dimensionnelles (sélection multicritères avec le concept de dominance ou de préférence), aux requêtes agrégatives (construction d’objets complexes à partir de fragments d’informations) et aux requêtes de fouille de données (exploration d’entrepôts par des méthodes d’analyse de données ou d’apprentissage).

 

Service computing pour traitement intensif des données: 

 

Les services Web recouvrent aujourd’hui une palette très large de fonctions de virtualisation permettant de masquer la spécificité des infrastructures, des plateformes et des applications pour ne rendre visibles que les services rendus par les diff érentes couches matérielles ou logicielles. Cette approche du tout service (XaaS ) est à la base des recherches menées sur le Cloud Computing  et le Data Cloud  en particulier. L’accès à certaines sources de données et l’intégration de données hétérogènes sont souvent réalisés à travers des services dédiés de gestion de données. Au delà, de nombreux services métiers sont publiés pour un usage direct ou via des workflows composés de services élémentaires. Cette activité d’ingénierie des workflows (en particulier dans le domaine scientifique) s’est considérablement rapprochée de la gestion des données, en ce sens qu’elle adresse le stockage, l’indexation et la personnalisation de services, elle nécessite des opérateurs d’appariement et de composition de services similaires à ceux des données complexes, elle pose des problèmes cruciaux de temps de calcul et de pertinence des appariements.

 

 Imprimer  E-mail

DMC Firewall is developed by Dean Marshall Consultancy Ltd