Gestion de connaissances: compétences et ressources pédagogiques

Revue des Nouvelles Technologies de l’InformationSous la direction de Djamel A. Zighed et Gilles Venturini

RNTI-E-6

Extractionet gestion des connaissances :

EGC'2006

Rédacteurs invités :Gilbert Ritschard

(Département d’économétrie, Université de Genève)Chabane Djeraba

(LIFL, Université des Sciences et Technologies de Lille)

Volume I

CÉPADUÈS-ÉDITIONS111, rue Vauquelin

31100 TOULOUSE – FranceTél. : 05 61 40 57 36 – Fax : 05 61 41 79 89

(de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89www.cepadues.com

courriel : [email protected]

© CEPAD 2006

Dépôt légal : janvier 2006

ISBN : 2.85428.718.5

Le code de la propriété intellectuelle du 1er juillet 1992 interdit expressément la photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée.

Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (CFC – 3, rue d'Hautefeuille – 75006 Paris).

N° éditeur : 71800

Chez le même éditeur

RNTI-Revue des Nouvelles Technologies de l'InformationSous la direction de Djamel A. Zighed et Gilles Venturini

n°1 : Entreposage fouille de donnéesE1 : Mesures de qualité pour la fouille de données

E2 : Extraction et gestion des connaissances EGC 2004C1 : Classification et fouille de données

E3 : Extraction et gestion des connaissances EGC 2005B1 : 1re Journée Francophone sur les Entrepôts de Données

et l’Analyse en ligne EDA 2005E4 : Fouille de données complexes

E5 : Extraction des connaissances : Etat et perspectives

Ensemble composé de 2 volumes :

2 85428 722 3 (volume I)

2 85428 723 1 (volume II)

LE MOT DES DIRECTEURS DE LA COLLECTION RNTI

Chères Lectrices, Chers Lecteurs,

La Revue des Nouvelles Technologies de l’Information existe depuis 2003 et vient de dé-passer le cap de 3800 pages de publications dans les domaines liés à l’Extraction de connais-sances à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances(GC). Cette revue a pour objectif d’être un outil de communication de très grande qualité etouvert à tous. A ce titre, RNTI accueille deux types de numéros :

– des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro àthème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programmespécifique d’une quinzaine de personne est formé à cette occasion. Plusieurs numérossont ainsi en cours de finalisation et seront disponibles début 2006 (Visualisation enextraction des connaissances, P. Kuntz, F. Poulet ; Systèmes d’information pour l’aideà la décision en ingénierie système, A. Kenchaf). Est également paru tout récemmentun numéro spécial sur la fouille de données complexes (O. Boussaid, P. Gançarski, F.Masséglia, B. Trousse),

– des actes de conférences sélectives garantissant une haute qualité des articles (nous de-mandons, par exemple, à ce que trois relecteurs émettent un avis sur les articles soumis).Ainsi le numéro RNTI- - a concerné les actes de EDA’2005 (F. Bentayeb, O. Boussaïd,J. Darmont, S. Loudcher).

Aujourd’hui nous avons donc le plaisir d’accueillir pour la troisième fois ce numéro consa-cré à la conférence EGC. Nous tenons à remercier les organisateurs de cette conférence pourla confiance qu’ils accordent à cette revue. Nous adressons en particulier toutes nos chaleu-reuses félicitations à Gilbert Ritschard qui a beaucoup œuvrer pour la qualité de ce numéroEGC’2006, à la fois du point de vue scientifique comme président du comité de programme etdu point de édition comme rédacteur invité.

Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière sa-tisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nouscontacter. En particulier, nous sommes à votre écoute pour toute proposition de nouveaux nu-méros spéciaux.

Djamel A. Zighed et Gilles Venturini.http ://www.antsearch.univ-tours.fr/rnti

iii

B 1

PRÉFACE

La sélection d’articles publiés dans le présent recueil constitue les actes des sixièmes jour-nées Extraction et Gestion des Connaissances (EGC’2006) qui se sont tenues à Lille du 17 au20 janvier 2006.

Les conférences EGC ambitionnent de regrouper chercheurs, industriels et utilisateursfrancophones issus des communautés Bases de Données, Apprentissage, Représentation desConnaissances, Gestion de Connaissances, Statistique et Fouille de données. Aujourd’hui, degrandes masses de données structurées ou semi-structurées sont accessibles dans les bases dedonnées d’entreprises, d’administrations ainsi que sur la toile. Aussi les entreprises et admi-nistrations ont-elles besoin de méthodes et d’outils capables de les acquérir, de les stocker,de les représenter, de les indexer, de les intégrer, de les classifier, d’extraire les connaissancespertinentes pour les décideurs et de les visualiser. Pour répondre à cette attente, de nombreuxprojets de recherche se développent autour de l’extraction de connaissances à partir de don-nées (Knowledge Discovery in Data), ainsi que sur la gestion de connaissances (KnowledgeManagement). Les articles réunis dans ce numéro spécial de RNTI rendent compte des déve-loppements les plus récents dans les multiples disciplines concernées par cette double problé-matiques, ainsi que du déploiement de méthodes d’extraction et de gestion des connaissancespar des spécialistes d’entreprises.

En particulier on constate dans les travaux rapportés ici une place grandissante accordéeaux formes diverses que peuvent prendre tant les données que les connaissances et à la néces-sité de structurer les informations pour mieux les appréhender. Ainsi, les données considéréesvont de données numériques classiques aux données symboliques, au multi-média, des imagesaux textes, de données statiques aux séquences et flots dynamiques. Les connaissances s’ex-priment quant à elles en termes de structure, de sémantique, d’ontologies, de règles, etc. Onconstate également que, dans le processus de gestion, les connaissances extraites deviennentà leur tour des données qu’il s’agit de maîtriser et d’exploiter efficacement pour l’action et laprise de décisions. On relève également l’émergence de nouveaux domaines d’application quide la gestion d’entreprise, des télécommunications ou du biomédical s’étendent aux domainejuridique, au domaine social, à la chimie, aux sciences du vivant, au contrôle de l’environne-ment et du territoire, ou encore à la gestion industrielle pour n’en citer que quelques uns.

Les articles sont regroupés en chapitres. Les regroupements ont été faits soit selon la pro-blématique abordée (gestion des connaissances, indexation, ontologies, sémantique, apprentis-sage, règles d’association, visualisation) ou selon le type de données considérées (complexeset/ou volumineuses, séquences, textes). Un chapitre est plus spécifiquement consacré aux ap-plications, et un autre rend compte des logiciels démontrés pendant les journées. En raisonde la forte interrelation entre les thèmes, les regroupements comprennent cependant une partd’arbitraire, la plupart des articles ayant leur place dans plusieurs chapitres.

Le recueil inclut également les résumés des conférences des invités prestigieux que sontHeikki Mannila, l’un des pères de l’extraction de motifs fréquents, Gilbert Saporta statisticienmondialement connu et expert de l’apprentissage statistique et Michael Ley le fondateur ducélèbre site de référence bibliographique DBLP.

v

Sur 152 soumissions, 42 articles longs (12 pages), 32 articles courts (6 pages) et les résu-més (2 pages) de 27 posters ont été sélectionnés par le comité de programme sur la base desrapports des relecteurs lors de sa réunion des 8 et 9 novembre 2005 à Paris. On rappellera qu’auminimum trois avis de relecteurs ont été sollicités pour chaque soumission. Les descriptifs (2pages) de 5 démonstrations de logiciels ont par ailleurs été retenus sur proposition du Co-mité “démonstrations logiciels” de EGC’2006 présidé par Mohand-Said Hacid. Finalement,les auteurs d’un papier long et de 4 posters ayant renoncé à être publiés, ce recueil totalise, enincluant les résumés des conférences invitées, un total de 104 articles ou résumés.

Remerciements

Nos vifs remerciements vont tout d’abord aux auteurs pour leurs excellentes contributions,mais aussi aux relecteurs (voir liste page vii), membres du comité de lecture ou sollicités par cesmembres, dont les rapports d’évaluation circonstanciés et constructifs ont contribué à améliorersignificativement la qualité des articles.

Nos remerciements vont également à toute l’équipe du Comité d’organisation présidé parChabane Djeraba pour leur travail et leur mobilisation permanente. Merci donc à Fatima Bel-kouche, Fatma Bouali, Anne-Cécile Caron, Jérôme David, Denis Debarbieux, Régis Gras, Ha-kim Hacid, Nacim Ihaddadene, Laetitia Jourdan, Said Mahmoudi, Sylvain Mongy, PhilippePreux, Thierry Urruty.

Parmi ces derniers, Nacim Ihaddadene qui a créé les affiches et le site web de la Confé-rence www-rech.enic.fr/egc2006 mérite une mention particulière. Merci également à PhilippeRigaux pour son “cyberchair” MyReview et surtout à Hakim Hacid pour l’avoir configuré etgéré parfaitement.

Merci à l’Association EGC pour son soutien et la dotation du prix de la meilleure commu-nication.

Enfin, nous remercions spécialement pour leur soutien financier et aides diverses le La-boratoire d’Informatique Fondamentale de Lille (UMR USTL/CNRS 8022), l’Université desSciences et Technologies de Lille, l’INRIA - Futurs, l’ENIC Télécom Lille 1, le Groupementdes Ecoles Télécom et la Ville de Lille. Sans leur soutien, ni la Conférence EGC 2006, ni cerecueil n’auraient vu le jour.

Gilbert Ritschard et Chabane Djeraba

vi

Le Comité de lecture de ce numéro est constitué des Comités de programme EGC’2006 et depilotage de EGC.

Comité de programme EGC’2006, sous la présidence de G. Ritschard :

N. Belkhiter (U. Laval, CND)S. Benbernou (LIRIS, U. Lyon 1, F)S. Bengio (IDIAP, Martigny, CH)G. Berio (U. de Turin , I)P. Bosc (IRISA/ENSSAT, U. Rennes 1, F)F. Cloppet (CRIP5, U. Paris 5, F)J. Darmont (ERIC, U. Lyon 2, F)E. Diday (CEREMADE, U. Paris 9, F)R. Dieng-Kuntz (INRIA, Sophia Antipolis, F)C. Djeraba (LIFL, U. Lille, F)J.-L. Ermine (Inst. Nat. des Télécommunications INT, F)G. Falquet (CUI, U. de Genève, CH)C. Froidevaux (LRI, U. Paris Sud, F)A. Magda Florea (U. Polytechnique de Bucarest, RO)P. Gallinari (LIP 6, U. Pierre et Marie Curie, F)J.-G. Ganascia (LIP 6, U. Pierre et Marie Curie, F)P. Gancarski (U. Louis Pasteur, Strasbourg, F)C. Garbay (TIMC-IMAG, Grenoble, F)A. Giacometti (U. Tours, antenne de Blois, F)R. Gilléron (INRIA Futurs Lille, F)G. Govaert (Heudiasyc, U. de Technologie Compiègne, F)C. Guinot (CERIES, U. Biométrie et Epidémiologie, F)A. Hardy (U. de Namur, Belgique)F. Jaquenet (EURISE, U. de Saint-Etienne, F)P. Kuntz (Ecole Polytechnique de l’U. de Nantes, F)S. Lallich (ERIC, Lyon2, F)A. Laurent (LIRMM, Montpelier, F)A. Lazraq (ENIM, Ecole des Mines de Rabat, Maroc)Y. Lechevallier (INRIA Rocquencourt, F)

P. Lenca (GET/ENST Bretagne, Brest, F)P. Leray (PSI / INSA Rouen, F)I.-C. Lerman (IRISA, U. Rennes 1, F)S. Loiseau (LERIA, U. d’Angers, F)R. Missaoui (DII, U. du Québec en Outaouais, CND)A. Napoli (LORIA, Nancy, F)M. Noirhomme-Fraiture ( U. de Namur, B)J.-M. Ogier (L3I, U. de La Rochelle, F)C. Pellegrini (CUI, U. de Genève, CH)S. Pinson (LAMSADE, U. Paris Dauphine, F)P. Poncelet (Ecole des Mines d’Alès/LGI2P, F)F. Poulet (ESIEA, Pôle ECD, Laval, F)C. Roche (Equipe CONDILLAC, U. de Savoie, F)M.-C. Rousset (IMAG, Grenoble, F)G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F)M. Schneider (LIMOS, U. Clermont Ferrand II, F)M. Sebag (LRI, U. Paris Sud, F)F. Sèdes (IRIT Toulouse, F)D. Simovici (U. of Massachusetts Boston, USA)E. Ghazali Talbi (LIFL, Lille, F)M. Teisseire (LIRMM, U. Montpellier 2, F)F. Toumani (LIMOS, Clermont-Ferrand, F)S. Trausan-Matu (U. Polytechnique de Bucarest, RO)B. Trousse (INRIA, Sophia Antipolis, F)G. Venturini (LI, U. de Tours, F)J.-P. Vert (Ecole des Mines de Paris, F)N. Vincent (CRIP5-SIP, U. Paris 5, F)L. Wehenkel (U. de Liège, Belgique)M. Zacklad (Tech-CICO, U. de Troyes, F)

Comité de pilotage EGC, sous la présidence de Henri Briand :

Danielle Boulanger (IAE, U. Lyon 3)Régis Gras (LINA, U. de Nantes)Fabrice Guillet (LINA, U. de Nantes)Mohand-Saïd Hacid (LIRIS, U. Lyon 1)Georges Hébrail (ENST, Paris)Danièle Hérin (LIRMM, U. Montpellier 2)

Yves Kodratoff (LRI, U. Paris-sud)Ludovic Lebart (ENST, Paris)Jean-Marc Petit (LIRIS, INSA Lyon)Jacques Philippé (PerfomanSe)Djamel Zighed (ERIC, U. Lyon 2)

Relecteurs non membres du Comité de lecture :

Salem Benferhat, Alexandre Blansché, Marc Boyer, François Bret, Philippe Caillou, Marie Françoise Canut, MarcChastan, Max Chevalier, Gilles Coppin, Fabien De Marchi, Gérard Dray, Amandine Duffoux, Béatrice Duval, JoyceEl Haddad, Céline Fiot, David Genest, Jacques Guyot, Benjamin Habegger, Alle Hadjali, Athmane Hamel, SamiraHammiche, Christine Largeron, Ludovic Liétard, Nicolas Lomenie, Patrick Marcel, Abdenour Mokrane, HassinaMouloudi, André Peniou, Fabien Picarougne, Bruno Pinaud, Olivier Pivert, Marc Plantevit, Saïd Radhouani, ChedyRaissi, Chantal Reynaud, Daniel Rocacher, David Sheeren, Laszlo Szathmary, Isabelle Tellier, Franck Thollard, MarcTommasi, Fabien Torre, Benoît Vaillant, Julien Velcin.

Comité démonstrations logiciels :

Mohan-Said Hacid (président), Djamel Benslimane, Jean-Marc Petit, Farouk Toumani

vii

TABLE DES MATIÈRES

Conférences invitées

Finding fragments of orders and total orders from 0-1 data,Heikki Mannila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Credit scoring, statistique et apprentissage,Gilbert Saporta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3

Maintaining an Online Bibliographical Database : The Problem of Data Quality,Michael Ley, Patrick Reuther . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Chapitre 1 : Données complexes et/ou volumineuses

Graphes de voisinage pour l’Indexation et l’Interrogation d’Images par le contenu,Hakim Hacid, Abdelkader Djamel Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Extraction automatique de champs numériques dans des documents manuscrits,Clément Chatelain, Laurent Heutte, Thierry Paquet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Clustering dynamique d’un flot de données : un algorithme incrémental et optimal dedétection des maxima de densité,

Alain Lelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Extraction d’objets vidéo : une approche combinant les contours actifs et le flot optique,Youssef Zinbi, Youssef Chahir, Abder Elmoatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

SVM incrémental, parallèle et distribué pour le traitement de grandes quantités de données,Thanh-Nghi Do, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Recherche en temps réel de préfixes massifs hiérarchiques dans un réseau IP à l’aide detechniques de stream mining,

Pascal Cheung-Mon-Chan, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Prétraitement de grands ensembles de données pour la fouille visuelle,Edwige Fangseu Badjio, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59

Chapitre 2 : Gestion de connaissances et indexation

Indexation de vues virtuelles dans un médiateur XML pour le traitement de XQuery Text,Clément Jamard, Georges Gardarin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Techniques de fouille de données pour la réécriture de requêtes en présence decontraintes de valeurs,

Hélène Jaudoin, Frédéric Flouvat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

ix

Un Index de jointure pour les entrepôts de données XML,Hadj Mahboubi, Kamel Aouiche, Jérôme Darmont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Le forage distribué des données : une méthode simple, rapide et efficace,Mohamed Aounallah, Guy Mineau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

Une approche distribuée pour l’extraction de connaissances : application àl’enrichissement de l’aspect factuel des BDG,

Khaoula Mahmoudi, Sami Faïz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

Modèle conceptuel pour bases de données multidimensionnelles annotées,Guillaume Cabanac, Max Chevalier, Franck Ravat, Olivier Teste . . . . . . . . . . . . . . . . . . . . 119

Comparaison de deux modes de représentation de données faiblement structurées ensciences du vivant,

Rallou Thomopoulos, Patrice Buche, Ollivier Haemmerlé,Frédéric Mabille, Nongyao Mueangdee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

Reconnaissance automatique d’évènements survenant sur patients en réanimationà l’aide d’une méthode adaptative d’extraction en ligne d’épisodes temporels,

Sylvie Charbonnier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

Une approche multi-agent adaptative pour la simulation de schémas tactiques,Aydano Machado, Yann Chevaleyre, Jean-Daniel Zucker . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Gestion de connaissances : compétences et ressources pédagogiques,Olivier Gerbé, Thierno Diarra, Jacques Raynauld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Chapitre 3 : Ontologies

Alignement extensionnel et asymétrique de hiérarchies conceptuelles par découverted’implications entre concepts,

Jérôme David, Fabrice Guillet, Régis Gras, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . 151

Une mesure de proximité et une méthode de regroupement pour l’aide à l’acquisitiond’ontologies spécialisées,

Guillaume Cleuziou, Sylvie Billot, Stanislas Lew, Lionel Martin, Christel Vrain . . . . . . . 163

Web sémantique pour la mémoire d’expériences d’une communauté scientifique :le projet MEAT,

Khaled Khelif, Rose Dieng-Kuntz, Pascal Barbry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

Interrogation et vérification de documents OWL dans le modèle des Graphes Conceptuels,Thomas Raimbault, Henri Briand, Rémi Lehn, Stéphane Loiseau . . . . . . . . . . . . . . . . . . . . 187

Une nouvelle mesure sémantique pour le calcul de la similarité entre deux conceptsd’une même ontologie,

Emmanuel Blanchard, Mounira Harzallah, Pascale Kuntz, Henri Briand . . . . . . . . . . . . . 193

Classification des compte-rendus mammographiques à partir d’une ontologie radiologiqueen OWL,

Amel Boustil, Sahnoun Zaidi, Ziad Mansouri, Christine Golbreich . . . . . . . . . . . . . . . . . . 199

x

Chapitre 4 : Fouille de textes

Choix du taux d’élagage pour l’extraction de la terminologie. Une approche fondée surles courbes ROC,

Mathieu Roche, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

Fast-MGB : Nouvelle base générique minimale de règles associatives,Chiraz Latiri, Lamia Ben Ghezaiel, Mohamed Ben Ahmed . . . . . . . . . . . . . . . . . . . . . . . . . . 217

Extraction et identification d’entités complexes à partir de textes biomédicaux,Julien Lorec, Gérard Ramstein, Yannick Jacques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

Reconnaissance automatique de concepts à partir d’une ontologie,Valentina Ceausu, Sylvie Desprès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

Multi-catégorisation de textes juridiques et retour de pertinence,Vincent Pisetta, Hakim Hacid, Djamel. A Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

Combinaison de l’approche inductive (progressive) et linguistique pour l’étiquetagemorphosyntaxique des corpus de spécialité,

Ahmed Amrani, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

Un automate pour évaluer la nature des textes,Hubert Marteau, Nicole Vincent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259

Extraction multilingue de termes à partir de leur structure morphologique,Delphine Bernhard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271

Accès aux connaissances orales par le résumé automatique,Benoît Favre, Jean-François Bonastre, Patrice Bellot, François Capman . . . . . . . . . . . . . 273

Chapitre 5 : Sémantique

Exploration des paramètres discriminants pour les représentations vectorielles de lasémantique des mots,

Frank Meyer, Vincent Dubois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275

Exploration interactive de bases de connaissances : un retour d’expérience,Christophe Tricot, Christophe Roche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287

Un modèle de qualité de l’information,Rami Harrathi, Sylvie Calabretto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

Annotation sémantique de pages web,Sylvain Tenier, Amedeo Napoli, Xavier Polanco, Yannick Toussaint . . . . . . . . . . . . . . . . . . 305

Chapitre 6 : Visualisation

Visualisation en Gestion des Connaissances : développement d’un nouveau modèlegraphique Graph’Atanor,

Bruno Pinaud, Pascale Kuntz, Fabrice Guillet, Vincent Philippé . . . . . . . . . . . . . . . . . . . . . 311

xi

Algorithme semi-interactif pour la sélection de dimensions,Lydia Boudjeloud, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323

Visualisation interactive de données avec des méthodes à base de points d’intérêt,David Da Costa, Gilles Venturini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335

Modélisation informationnelle : un cadre méthodologique pour visualiser desconnaissances évolutives spatialisables,

Jean-Yves Blaise, Iwona Dudek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347

Chapitre 7 : Annalyse de données et classification

Typicalité et contribution des sujets et des variables supplémentaires en AnalyseStatistique Implicative,

Régis Gras, Jérôme David, Jean-Claude Régnier, Fabrice Guillet . . . . . . . . . . . . . . . . . . . 359Utilisation de métadonnées pour l’aide à l’interprétation de classes et de partitions,

Abdourahamane Baldé, Yves Lechevallier, Brigitte Trousse, Marie-Aude Aufaure . . . . . 371Affectation pondérée sur des données de type intervalle,

Chérif Mballo, Edwin Diday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377Classifications hiérarchiques factorielles de variables,

Sergio Camiz, Jean-Jacques Denimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383Classification non-supervisée de données relationnelles,

Jérôme Maloberti, Shin Ando, Einoshin Suzuki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389

Chapitre 8 : Apprentissage

Analyse du comportement des utilisateurs exploitant une base de données vidéo,Sylvain Mongy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

Web Usage Mining : extraction de périodes denses à partir des logs,Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire, Alice Marascu . . . . . . . . . . . 403

Comparaison de dissimilarité pour l’analyse de l’usage d’un site web,Fabrice Rossi, Francisco De Carvalho, Yves Lechevallier, Alzennyr Da Silva . . . . . . . . . 409

Extraction de relations dans les documents Web,Rémi Gilléron, Patrick Marty, Marc Tommasi, Fabien Torre . . . . . . . . . . . . . . . . . . . . . . . . . 415

Sélection supervisée d’instances : une approche descriptive,Sylvain Ferrandiz, Marc Boullé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421

Classification de documents XML à partir d’une représentation linéaire des arbresde ces documents,

Anne-Marie Vercoustre, Mounir Fegas, Yves Lechevallier, Thierry Despeyroux . . . . . . . . 433Carte auto-organisatrice probabiliste sur données binaires,

Rodolphe Priam, Mohamed Nadif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445Classification d’un tableau de contingence et modèle probabiliste,

Gérard Govaert, Mohamed Nadif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457

xii

https://www.researchgate.net/publication/220786862_Typicalite_et_contribution_des_sujets_et_des_variables_supplementaires_en_Analyse_Statistique_Implicative?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==




Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair,Raja Chiky, Bruno Defude, Georges Hébrail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463

Fouille de données dans les systèmes Pair-à-Pair pour améliorer la recherche de ressources,Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . 469

Une approche simple inspirée des réseaux sociaux pour la hiérarchisation des systèmesautonomes de l’Internet,

Fabrice Clérot, Quang Nguyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475

Recherche de sous-structures fréquentes pour l’intégration de schémas XML,Federico Del Razo López, Anne Laurent, Pascal Poncelet, Maguelonne Teisseire . . . . . . 487

Vers l’extraction de motifs rares,Laszlo Szathmary, Sandy Maumus, Pierre Petronin, Yannick Toussaint,Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .499

Approche entropique pour l’analyse de modèle de chroniques,Nabil Benayadi, Marc Le Goc, Philippe Bouché . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511

La fouille de graphes dans les bases de données réactionnelles au service de la synthèseen chimie organique,

Frédéric Pennerath, Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517

Fouille de données spatiales. Approche basée sur la programmation logique inductive,Nadjim Chelghoum, Karine Zeitouni, Thierry Laugier, Annie Fiandrino,Lionel Loubersac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529

Arbres de Décision Multi-Modes et Multi-Cibles,Frank Meyer, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541

Extension de l’algorithme CURE aux fouilles de données,Jerzy Korczak, Aurélie Bertaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547

Chapitre 9 : Règles d’association

Comparaison des mesures d’intérêt de règles d’association : une approche basée sur desgraphes de corrélation,

Xuan-Hiep Huynh, Fabrice Guillet, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549

Une comparaison de certains indices de pertinence des règles d’association,Marie Plasse, Ndeye Niang, Gilbert Saporta, Laurent Leblond . . . . . . . . . . . . . . . . . . . . . . 561

Utilisation des réseaux bayésiens dans le cadre de l’extraction de règles d’association,Clément Fauré, Sylvie Delprat, Alain Mille, Jean-François Boulicaut . . . . . . . . . . . . . . . . 569

Critère VT100 de sélection des règles d’association,Alain Morineau, Ricco Rakotomalala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .581

Modèle décisionnel basé sur la qualité des données pour sélectionner les règlesd’associations légitimement intéressantes,

Laure Berti-Equille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593

Règles d’association avec une prémisse composée : mesure du gain d’information,Martine Cadot, Pascal Cuxac, Claire François . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599

xiii

https://www.researchgate.net/publication/29617427_Regles_d'association_avec_une_premisse_composee_Mesure_du_gain_d'information?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==

https://www.researchgate.net/publication/29617427_Regles_d'association_avec_une_premisse_composee_Mesure_du_gain_d'information?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==

https://www.researchgate.net/publication/220786508_Comparaison_des_mesures_d'interet_de_regles_d'association_une_approche_basee_sur_des_graphes_de_correlation?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==



Recherche de règles non redondantes par vecteurs de bits dans des grandes bases de motifs,François Jacquenet, Christine Largeron, Cédric Udréa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601

Chapitre 10 : Données séquentielles

Des motifs séquentiels généralisés aux contraintes de temps étendues,Céline Fiot, Anne Laurent, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603

Bordure statistique pour la fouille incrémentale de données dans les Data Streams,Jean-Emile Symphor, Pierre-Alain Laur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615

Extraction de motifs séquentiels dans les flots de données d’usage du Web,Alice Marascu, Florent Masseglia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627

Champs de Markov conditionnels pour le traitement de séquences,Trinh Minh Tri Do, Thierry Artières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639

Chapitre 11 : Applications

Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés :application à l’identification des facteurs environnementaux du cancer du Nasopharynx,

Alexandre Aussem, Zahra Kebaili, Marilys Corbex, Fabien De Marchi . . . . . . . . . . . . . . . 651

De l’analyse didactique à la modélisation informatique pour la conception d’un EIAH enchirurgie orthopédique,

Vanda Luengo, Lucile Vadcard, Dima Mufti-Alchawafa . . . . . . . . . . . . . . . . . . . . . . . . . . . . .663

Prédiction de la solubilité d’une molécule à partir des seules données relationnelles,Sébastien Derivaux, Agnès Braud, Nicolas Lachiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669

Préparation des données Radar pour la reconnaissance/identification de cibles aériennes,Abdelmalek Toumi, Brigitte Hoeltzener, Ali Khenchaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675

Biclustering of Gene Expression Data Based on Local Nearness,Jesus Aguilar-Ruiz, Domingo Savio Rodriguez, Dan A. Simovici . . . . . . . . . . . . . . . . . . . . 681

Amélioration des indicateurs techniques pour l’analyse du marché financier,Hunor Albert-Lorincz, Jean-François Boulicaut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693

EDA : algorithme de désuffixation du langage médical,Didier Nakache, Elisabeth Métais, Annabelle Dierstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705

Aide en gestion hospitalière par visualisation des composantes de non-pertinence,Bernard Huet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707

Enrichissement d’ontologies dans le secteur de l’eau douce en environnement Internetdistribué et multilingue,

Lylia Abrouk, Mathieu Lafourcade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709

Comparaison des mammographies par des méthodes d’apprentissage,Irina Diana Coman, Djamel Abdelkader Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711

xiv

https://www.researchgate.net/publication/220786656_Des_Motifs_Sequentiels_Generalises_aux_Contraintes_de_Temps_Etendues?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==



Représentation d’expertise psychologique sous la forme de graphes orientés, codésen RDF,

Yves Fossé, Stéphane Daviet, Henri Briand, Fabrice Guillet . . . . . . . . . . . . . . . . . . . . . . . . 713Représentation des connaissances appliquées à la géotechnique : une approche,

Nicolas Faure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715Sélection de variables et modélisation d’expressions d’émotions dans des dialoguesHomme-Machine,

Barbara Poulain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717Comment formaliser les connaissances tacites d’une organisation ? Le cas de la conduitedu changement à la SNCF,

Anne Remillieux, Christian Blatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719I-Semantec : une plateforme collaborative de capitalisation des connaissances métier enconception de produits industriels,

Mohamed-Foued Sriti, Phillipe Boutinaud, Nada Matta, Manuel Zacklad . . . . . . . . . . . . 721Outil de datamining spatial appliqué à l’analyse des risques liés au territoire,

Schahrazed Zeghache, Farida Admane, Kamel Elarabia Ziane . . . . . . . . . . . . . . . . . . . . . . 723Confrontation de points de vue dans le système Porhyry,

Samuel Gesche, Sylvie Calabretto, Guy Caplat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725Système d’aide à la décision pour la surveillance de la qualité de l’air intérieur,

Zoulikha Heddadji, Nicole Vincent, Severine Kirchner, Georges Stamon . . . . . . . . . . . . . . 727FaBR-CL : méthode de classification croisée de protéines,

Walid Erray, Faouzi Mhamdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729Un modèle extensible adapté à la gestion de dépêches d’agences de presse,

Frédéric Bertrand, Cyril Faucher, Marie-Christine Lafaye, Jean-Yves Lafaye,Alain Bouju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731

ARABASE : base de données Web pour l’exploitation en reconnaissance optique del’écriture arabe,

Noura Bouzrara, Nacéra Madani Aissaoui, Najoua Essoukri Ben Amara . . . . . . . . . . . . . 733Archiview, un outil de visualisation topographique des paramètres d’un hôpital,

Pierre P. Lévy, Jean-Philippe Villaréal, Pierre-Paul Couka, Fabrice Gallois,Laurence Herbin, Antoine Flahault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735

Chapitre 12 : Logiciels

Faire vivre un référentiel métier dans l’industrie : le système de gestion deconnaissances ICARE,

Alain Berger, Pierre Mariot, Christophe Coppens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 737ESIEA Datalab Logiciel de Nettoyage et Préparation de Données ,

Christopher Corsia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 739Méthode de récolte de traces de navigation sur interface graphique et visualisationde parcours,

Marc Damez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741

xv

Teximus Expertise : un logiciel de gestion de connaissances,Olivier Gerbé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743

Un logiciel permettant d’apprendre des règles et leurs exceptions : Area,Sylvain Lagrue, Jérémie Lussiez, Julien Rossit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745

xvi

Finding fragments of orders and total orders from 0-1 data

Heikki Mannila

HIIT Basic Research Unit, University of Helsinki, Department of Computer Scienceand Helsinki University of Technology, Laboratory of Computer and Information Science

[email protected]

High-dimensional collections of 0-1 data occur in many applications. The attributes insuch data sets are typically considered to be unordered. However, in many cases there is anatural total or partial order underlying the variables of the data set. Examples of variablesfor which such orders exist include terms in documents and paleontological sites in fossil datacollections. We describe methods for finding fragments of total orders from such data, basedon finding frequently occurring patterns. We also discuss techniques for finding good totalorderings (seriation) based on spectral ordering and MCMC methods.

RésuméOn s’intéresse aux collections de données 0-1 de haute dimension que l’on rencontre dans

de nombreuses applications. Bien que les attributs soient dans de tels ensembles de donnéestypiquement considérés comme non ordonnés, un ordre total ou partiel sous-tend souvent lesvariables. Par exemple, il existe de tels ordres entre les termes utilisés dans un ensemble dedocuments, ou les sites paléontologiques dans les collections de données de fossiles. Nous dé-crivons des méthodes, fondées sur la recherche de motifs fréquents, qui permettent de retrouverdes fragments d’ordre total à partir de telles données. Nous discutons également des techniquesfondées sur l’ordre spectral et les modèles MCMC qui permettent de trouver de bons ordrestotaux (sériations).

- 1 - RNTI-E-6

Credit scoring, statistique et apprentissage

Gilbert Saporta

Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers

292 rue Saint Martin 75141 Paris Cedex 03

[email protected]

Les accords dits « Bâle 2 » sur la solvabilité des banques ont remis au goût du jour les

techniques de scoring en imposant aux banques de calculer des probabilités de défaut et le montant des pertes en cas de défaut. Nous présentons dans cet exposé les principales techni-ques utilisées et les problèmes actuels.

Le terme credit scoring désigne un ensemble d’outils d’aide à la décision utilisés par les organismes financiers pour évaluer le risque de non-remboursement des prêts. Un score est une note de risque, ou une probabilité de défaut.

Le problème semble simple en apparence, puisqu’il s’agit d’une classification supervisée en deux groupes, les « bons payeurs » et les « mauvais payeurs ».

Les classifieurs linéaires sont les plus classiques et souvent les seuls utilisables en raison de contraintes légales : on doit pouvoir expliquer la décision de refus. Ces classifieurs doi-vent être adaptés au cas de prédicteurs qualitatifs, que l’on rencontre le plus souvent en crédit à la consommation. On rappellera que l’usage de variables qualitatives remonte à des travaux très anciens de Fisher. La régression logistique est devenue un standard dans la profession, que l’on oppose souvent à tort à l’analyse discriminante.

La théorie de l’apprentissage statistique apporte alors des justifications à l’usage de tech-niques de réduction de dimension (méthode Disqual de discrimination sur composantes fac-torielles, régression PLS) et de régularisation (régression ridge). La régression PLS se révèle équivalente à une technique méconnue : l’analyse discriminante barycentrique qui est le pendant additif du classifieur naïf de Bayes qui est multiplicatif.

Le choix entre méthodes ou algorithmes ne peut reposer sur des critères statistiques de type vraisemblance, inadapté à des problèmes de décision mais sur des mesures de perfor-mance en généralisation. La courbe ROC et les indices associés (AUC, Gini, Ki) sont les plus utilisés.

Un des problèmes épineux est celui du biais de sélection : en effet l’ensemble d’apprentissage ne contient que des individus dont la demande de prêt a été accordée. On sait que si les variables d’acceptation sont différentes des variables disponibles, on ne peut trou-ver de solution sans biais. La prise en compte des dossiers refusés (reject inference) donne lieu cependant à une abondante littérature, sans guère de résultats convaincants.

La discrimination entre défaillants et non-défaillants n’est plus le seul objectif, surtout pour des prêts à long terme : le « quand » devient aussi important que le « si ». De nombreux travaux s’orientent actuellement vers l’utilisation de modèles de survie pour données censu-rées dont nous donnerons un aperçu.

- 3 - RNTI-E-6

Credit scoring

Références

Baesens, B. (2003): Developing intelligent systems for credit scoring using machine learning techniques, Ph.D, Leuven

Baesens B., Van Gestel T., Stepanova M., Van Den Poel D.(2005) Neural Network Survival Analysis for Personal Loan Data, Journal of the Operational Research Society, 56 (9), 1089-1098,

Bardos, M.; (2001): Analyse discriminante, Paris, Dunod

Bouroche, J.M., Saporta G. (1988) Les méthodes et les applications du credit-scoring , Atti 34° Riunione Scientifica della Sociéta Italiana di Statistica, p.19-26,

Celeux, G., Nakache, J.P. (1994). Discrimination sur variables qualitatives, Paris: Polytech-nica

Fisher, R.A. (1940) The precision of discriminant functions, Annals of Eugenics, 10, 422-429.

Hastie,T. ,Tibshirani,R., Friedman, J. (2001): The Elements of Statistical Learning, New-York, Springer-Verlag

Mays ed. (2001), Handbook of credit scoring, Glenlake

Saporta G., Niang N., (2006), Correspondence analysis and classification, in Blasius, J. & Greenacre, M. editors: Multiple correspondence analysis and related methods, Chapman & Hall

Thomas L.C., Edelman D.B., Crook J.N. (2002) Credit Scoring and its Applications, SIAM monographs on Mathematical Modelling and Computation

Credit Research Center: http://www.crc.man.ed.ac.uk

http://www.defaultrisk.com/

Basel Committee publications: http://www.bis.org/bcbs/publ.htm

Summary

Basel 2 regulations brought new interest in supervised classification methodologies for predicting default probability for loans. An important feature of consumer credit is that pre-dictors are generally categorical. Logistic regression and linear discriminant analysis are the most frequently used techniques but are often unduly opposed. Vapnik’s statistical learning theory explains why a prior dimension reduction (eg by means of multiple correspondence analysis) improves the robustness of the score function. Ridge regression, linear SVM, PLS regression are also valuable competitors. Predictive capability is measured by AUC or Gini’s index which are related to the well known non-parametric Wilcoxon-Mann-Whitney test. Among methodological problems, reject inference is an important one, since most samples are subject to a selection bias. There are many methods, none being satisfactory. Distinguish between good and bad customers is not enough, especially for long-term loans. The question is then not only “if”, but “when” the customers default. Survival analysis provides new types of scores.

- 4 -RNTI-E-6

Maintaining an Online Bibliographical Database:The Problem of Data Quality

Michael Ley∗, Patrick Reuther∗

∗Department for Databases and Information Systems, University of Trier, Germany{ley,reuther}@uni-trier.de

http://dbis.uni-trier.de http://dblp.uni-trier.de

Abstract. CiteSeer and Google-Scholar are huge digital libraries which provideaccess to (computer-)science publications. Both collections are operated likespecialized search engines, they crawl the web with little human interventionand analyse the documents to classify them and to extract some metadata fromthe full texts. On the other hand there are traditional bibliographic data baseslike INSPEC for engineering and PubMed for medicine. For the field of com-puter science the DBLP service evolved from a small specialized bibliographyto a digital library covering most subfields of computer science. The collectionsof the second group are maintained with massive human effort. On the longterm this investment is only justified if data quality of the manually maintainedcollections remains much higher than that of the search engine style collections.In this paper we discuss management and algorithmic issues of data quality. Wefocus on the special problem of person names.

1 IntroductionIn most scientific fields the amount of publications is growing exponentially. The primary

purpose of scientific publications is to document and communicate new insights and new re-sults. On the personal level publishing is a sort of collecting credit points for the CV. Onthe institutional level there is an increasing demand to evaluate scientists and departments bybibliometric measures, which hopefully consider the quality of the work. All aspects requirereliable collection, organization and access to publications. In the age of paper this infrastruc-ture was provided by publishers and libraries. The internet, however, enabled new players tooffer services. Consequently many specialized internet portals became important for scien-tific communities. Search engines like Google(-Scholar) or CiteSeer, centralized archives likearXic.org/CoRR and a huge number of personal and/or department web servers make it veryeasy to communicate scientific material.

The old players — publishers, learned societies, libraries, database producers etc. —face these new competitors by building large digital libraries like ScienceDirect (Elsevier),SpringerLink, ACM Digital Library or Xplore (IEEE) in the field of computer science.

DBLP (Digital Bibliography & Library Project) (Ley, 2002) is an internet "newcomer"that started service in 1993. The DBLP service evolved from a small bibliography special-ized to database systems and logic programming to a digital library covering most subfields

- 5 - RNTI-E-6

Graphes de voisinage pour l’indexation et l’interrogationd’images par le contenu

Hakim Hacid ∗, Abdelkader Djamel Zighed∗

∗Université Lyon 2, Laboratoire ERICBat. L, 5 Av. Pierre Mendès-France

69676 Bron cedex - [email protected], [email protected],

http://eric.univ-lyon2.fr/

Résumé. La découverte d’informations cachées dans les bases de données mul-timédias est une tâche difficile à cause de leur structure complexe et à la sub-jectivité liée à leur interprétation. Face à cette situation, l’utilisation d’un indexest primordiale. Un index multimédia permet de regrouper les données selondes critères de similarité. Nous proposons dans cet article d’apporter une amé-lioration à une approche déjà existante d’interrogation d’images par le contenu .Nous proposons une méthode efficace pour mettre à jour, localement, les graphesde voisinage qui constituent notre structure d’index multimédia. Cette méthodeest basée sur une manière intelligente de localisation de points dans un espacemultidimensionnel. Des résultats prometteurs sont obtenus après des expérimen-tations sur diverses bases de données.

1 IntroductionLa recherche d’information dans les bases de données image est toujours un défi. Pour

l’être humain, l’accès à la sémantique d’une image est naturel et non explicite. Par conséquent,la sémantique provient de l’image sans processus cognitif explicite. Dans la vision par ordina-teur, il existe plusieurs niveaux d’interprétation. Le plus bas est celui des pixels et le plus hautest celui des scènes ; entre eux beaucoup de niveaux d’abstraction existent. Le défi est alors deremplir la gouffre entre le bas niveau et le haut niveau.

Il existe au moins deux issues intermédiaires auxquelles nous nous intéressons. La pre-mière est la représentation de l’image sous forme de vecteurs qui est appelée indexation. Elleconsiste à extraire quelques caractéristiques (composantes d’un vecteur) à partir de la représen-tation de bas niveau(Pixel). Par exemple, l’histogramme des couleurs, les différents moments,les paramètres de forme, etc. La seconde issue est l’ensemble des étiquettes associées à uneimage. Ces étiquettes sont fournit par l’humain au moyen de mots, d’adjectifs, ou au moyen detout autre attribut symbolique. Les étiquettes sont compréhensibles et mieux manipulées. Lasémantique peut être considérée comme le résultat du traitement des attributs symboliques quisont liés à l’image.

Donner à l’ordinateur la capacité d’imiter l’être humain dans l’analyse de scènes nécessited’expliciter le processus par lequel il peut se déplacer de la représentation bas niveau à la

- 11 - RNTI-E-6

Extraction automatique de champs numériques dans desdocuments manuscrits

Clément Chatelain, Laurent Heutte, Thierry Paquet

Laboratoire PSI, CNRS FRE 2645,Université de Rouen, 76800 Saint Etienne du Rouvray, FRANCE

[email protected]

Résumé. Nous décrivons dans cet article une chaine de traitement complète etgénérique permettant d’extraire automatiquement les champs numériques (nu-méros de téléphone, codes clients, codes postaux) dans des documents manus-crits libres. Notre chaïne de traitement est constituée des trois étapes suivantes:localisation des champs numériques potentiels selon une approche markoviennesans reconnaissance chiffre ni segmentation, reconnaissance des séquences ex-traites, et vérification des hypothèses de localisation / reconnaissance en vue delimiter la fausse alarme génerée lors de l’étape de localisation. L’évaluation denotre système sur une base de 300 courriers manuscrits montre des performancesen rappel-précision intéressantes.

1 Introduction

Aujourd’hui, la lecture automatique des documents manuscrits se limite à quelques cas ap-plicatifs particuliers : lecture automatique de chèques ou d’adresses postales, reconnaissancedes champs d’un formulaire. Cette lecture est possible car le contenu de ces documents esttrès largement contraint : structure du document stable, position des informations connue, re-dondance de l’information, lexique limité, etc. Lors de la lecture, le système bénéficie ainsid’informations a priori importantes permettant de limiter ou de vérifier les hypothèses de re-connaissance, autorisant une lecture fiable des documents.

Peu de travaux abordent des problèmes de reconnaissance moins contraints car il est alorsplus difficile de bénéficier de moyens automatiques de vérification des hypothèses de recon-naissance. C’est le contexte de nos travaux portant sur la lecture automatique des courriersentrants manuscrits. Il s’agit de courriers manuscrits tels que des lettres de réclamation, dechangement d’adresse, de modification de contrat, etc., reçus en très grand nombre quotidien-nement par des grandes organisations. Contrairement aux applications précédemment citées,aucune information a priori n’est disponible : le contenu, la structure, l’expéditeur ou encorel’objet du document sont totalement inconnus du système de lecture, ce qui rend la lectureintégrale du document extrêmement délicate. Il est cependant possible de considérer des pro-blèmes de lecture partielle du document, visant à en extraire l’information pertinente. C’estce que nous envisageons dans cet article en proposant une méthode de localisation et de re-connaissance de champs numériques (numéros de téléphones, codes clients, etc.) dans descourriers entrants manuscrits (voir figure 1). La reconnaissance de ces champs permettra par

- 23 - RNTI-E-6

Clustering dynamique d’un flot de données : un algorithme incrémental et optimal de détection des maxima de densité

Alain Lelu

LASELDI / Université de Franche-Comté 30 rue Mégevand – 25030 Besançon cedex

[email protected]

Résumé. L’extraction non supervisée et incrémentale de classes sur un flot de données (data stream clustering) est un domaine en pleine expansion. La plu-part des approches visent l’efficacité informatique. La nôtre, bien que se prê-tant à un passage à l’échelle en mode distribué, relève d’une problématique qualitative, applicable en particulier au domaine de la veille informationnelle : faire apparaître les évolutions fines, les « signaux faibles », à partir des théma-tiques extraites d’un flot de documents. Notre méthode GERMEN localise de façon exhaustive les maxima du paysage de densité des données à l’instant t, en identifiant les perturbations locales du paysage à t-1 et modifications de frontières induites par le document présenté. Son caractère optimal provient de son exhaustivité (à une valeur du paramètre de localité correspond un ensem-ble unique de maxima, et un découpage unique des classes qui la rend indé-pendante de tout paramètre d’initialisation et de l’ordre des données.

1 Introduction et objectifs

Pour rendre compte avec exactitude des évolutions temporelles, cruciales dans beaucoup de domaines d’application (ex. : veille d’information), il est nécessaire à notre avis : 1) de partir d’une base stable, c'est-à-dire d’une classification :

- indépendante de l’ordre de présentation des données (exigence n°1), - indépendante des conditions initiales, que ce soit d’un choix de « graines de classes »

arbitraires ou dépendantes des données (exigence n°2), - impliquant un minimum de paramètres, un seul si possible, pour réduire l’espace des

choix et tendre vers un maximum de vérifiabilité et de reproductibilité (exigence n°3). 2) d’ajouter aux contraintes d’une bonne classification celle de l’incrémentalité (exigence N°4), afin de saisir les évolutions au fil de l’eau : rectifications de frontières entre classes, apparition de nouvelles classes, voire de « signaux faibles »... Pour nous, il y a incrémentalité véritable si le résultat de la classification est indépendant de l’ordre des données présentées antérieurement (exigence N°5), tout en découlant des données antérieures, par un historique pouvant faire l’objet d’interprétations.

Notre démarche a été de concevoir une méthode où la contrainte d’incrémentalité partici-per d’un tout cohérent, en vue d’aboutir à tout instant à une classification qui ait du sens, et dont la différence de représentation par rapport à l’instant précédent ne provient que des

- 35 - RNTI-E-6

Extraction d'objets vidéo : Une approche combinant les contours actifs et le flot optique

Youssef Zinbi*, Youssef Chahir* et Abder Elmoatz **

* GREYC - URA CNRS 6072

Campus II - BP 5186 Université de Caen 14032 Caen Cedex

** LUSAC , Site Universitaire, rue Luis Aragon 50130 Cherbourg

{yzinbi,chahir}@info.unicaen.fr [email protected]

Résumé. Dans cet article, nous présentons une méthode mixte de segmentation d'objets visuels dans une séquence d'images d'une vidéo combinant à la fois une segmentation basée régions et l'estimation de mouvement par flot optique. L'approche développée est basé sur une minimisation d'une fonctionnelle d'énergie (E) qui fait intervenir les probabilités d'appartenance (densité) avec une gaussienne, en tenant compte des informations perceptuelles de couleur et de texture des régions d'intérêt. Pour améliorer la méthode de détection et de suivi, nous avons étendu la formulation énergétique de notre modèle de contour actif en incluant une force supplémentaire issue du calcul du flot opti-que. Nous montrons l'intérêt de cette approche mixte en terme de temps de cal-cul et d'extraction d'objets vidéo complexes, et nous présentons les résultats obtenus sur des séquences de corpus vidéo couleur.

1 Introduction La recherche d'objets vidéo est une tâche difficile compte tenu de la richesse des informa-

tions multiples dans l'image. Pour trouver de manière automatique ces objets vidéo, il est important de tenir compte de trois étapes principales qui sont la segmentation, l'identification et le suivi d'objets en mouvement par flot optique.

Le but de la segmentation active est de détecter et d’extraire des informations pertinentes dans une image. Différents modèles de contours actifs ont été proposés dans la littérature, mais on peut distinguer deux principales approches: Des approches basées contours et d’autres basées régions. L'implémentation de n'importe quel modèle de contour actif exige la minimisation d'une fonctionnelle d’énergie. Cette énergie a deux composantes: énergie ex-terne, qui est caractérisée par la régularité de la courbe et l’énergie interne qui a pour fonc-tion d'attirer la courbe vers les gradients les plus forts (les forts contraste de l'image).

Les contours actifs classiques ont été proposés pour la première fois par Kass et al (Kass et al., 1987) pour la segmentation d’images médicales. L'idée de base consiste à faire évoluer la courbe vers la frontière de l’objet à détecter. Ce modèle a été confronté à plusieurs

- 41 - RNTI-E-6

SVM incrémental, parallèle et distribué pour le traitement de grandes quantités de données

Thanh-Nghi Do*, François Poulet**

*College of Information Technology, Cantho University

1 Ly Tu Trong street, Cantho City, Vietnam [email protected] **ESIEA - Pôle ECD

38, rue des Docteurs Calmette et Guérin, 53000 Laval - France [email protected]

Résumé. Nous présentons un nouvel algorithme de SVM (Support Vector Machine ou Séparateur à Vaste Marge) linéaire et non-linéaire, parallèle et distribué permettant le traitement de grands ensembles de données dans un temps restreint sur du matériel standard. A partir de l’algorithme de Newton-GSVM proposé par Mangasarian, nous avons construit un algorithme incrémental, parallèle et distribué permettant d’améliorer les performances en temps d’exécution et mémoire en s’exécutant sur un groupe d’ordinateurs. Ce nouvel algorithme a la capacité de classifier un million d’individus en 20 dimensions et deux classes en quelques secondes sur un ensemble de dix PC.

1 Introduction A l’heure actuelle, les données arrivent plus vite que la capacité de traitement des

algorithmes de fouille de données ne permet de les traiter. L’amélioration des performances des algorithmes de fouille de données est indispensable pour traiter de grands ensembles de données. Nous nous intéressons au cas de la classification supervisée et plus particulièrement à une classe d’algorithmes : les SVM [Vapnik, 1995]. En règle générale, ils donnent de bons taux de précision mais, l’apprentissage des SVM se ramène à résoudre un programme quadratique et est donc coûteux en temps et mémoire. Pour remédier à ce problème, les méthodes de décomposition [Platt, 1999], [Chang et Lin, 2003] travaillent sur des sous-ensembles arbitraires de données, on utilise alors des heuristiques [Do et Poulet, 2005] permettant de choisir les sous-ensembles de données. D’autres travaux visent à construire des algorithmes incrémentaux [Fung et Mangasarian, 2002] dont le principe est de ne charger qu’un petit bloc de données en mémoire à la fois, de construire un modèle partiel et de le mettre à jour en chargeant consécutivement des blocs de données. Les SVMs parallèles et distribués [Poulet et Do, 2004] utilisent un réseau de machines pour améliorer les performances. Nous présentons un nouvel algorithme de SVM linéaire et non-linéaire pour traiter de grands ensembles de données dans un temps restreint sur du matériel standard. A partir de l’algorithme de Newton-GSVM [Mangasarian, 2001], nous avons construit un algorithme incrémental, parallèle et distribué permettant d’améliorer les performances en temps d’exécution et mémoire en s’exécutant sur un groupe d’ordinateurs. Les résultats

- 47 - RNTI-E-6

Recherche en temps réel de préfixes massifs hiérarchiquesdans un réseau IP à l’aide de techniques de stream mining

Pascal Cheung-Mon-Chan∗, Fabrice Clérot∗

∗ France Télécom R&D2, avenue Pierre Marzin BP 50702

22307 Lannion Cedex -France{pascal.cheungmonchan, fabrice.clerot}@francetelecom.com

Résumé.Au cours de ces dernières années, de nombreuses techniques de streammining ont été proposées afin d’analyser des flux de données entemps réel.Dans cet article, nous montrons comment nous avons utilisé des techniques destream mining permettant la recherche d’objets massifs hiérarchiques (hierarchi-cal heavy hitters) dans un flux de données pour identifier en temps réel dans unréseau IP les préfixes dont la contribution au trafic dépasse une certaine propor-tion de ce trafic pendant un intervalle de temps donné.

1 Introduction

Les progrès techniques récents ont eu pour conséquence l’augmentation du nombre de fluxd’information et la croissance rapide de leurs débits. L’architecture traditionnelle de l’analysede données — où les données, préalablement stockées, sont analysées puis rafraîchies — étantinadaptée au traitement de ces flux, une nouvelle famille de techniques, dites de stream mi-ning, se propose d’inverser radicalement cette architecture et de mettre en oeuvre des systèmesreposant sur des capacités de stockage minimales qui sont mises à jour à la vitesse du flux.L’objectif de cet article est d’expliquer comment nous avons utilisé des techniques de streammining afin d’identifier en temps réel, dans un réseau IP, les préfixes dont la contribution autrafic dépasse une certaine proportion de ce trafic pendant unintervalle de temps donné.

2 La recherche d’objets massifs hiérarchiques dans un fluxde données

2.1 La notion d’objet massif hiérarchique

Les flux de données que nous allons considérer ici sont de la forme (it, ct)t∈N où, pourtout instantt ∈ N, l’ identifiant it appartient à un ensemble finiU et la marquect est unnombre réel positif ou nul. Dans cet article, l’identifiantit correspondra à une adresse IP, parexemple l’adresse destination d’un paquet IP transitant enun pointP donné d’un réseau, l’en-semble finiU correspondra à l’ensemble des adresses IP v4 (autrement ditchaque adressecomportera 32 bits) et lamarquect correspondra au nombre d’octets transportés par le paquet

- 53 - RNTI-E-6

Prétraitement de grands ensembles de données pour la fouille visuelle

Edwige Fangseu Badjio, François Poulet

ESIEA Pôle ECD,

Parc Universitaire de Laval-Changé,

38, Rue des Docteurs Calmette et Guérin,

53000 Laval France

[email protected]

[email protected]

Résumé. Nous présentons une nouvelle approche pour le traitement des en-

sembles de données de très grande taille en fouille visuelle de données. Les li-

mites de l’approche visuelle concernant le nombre d’individus et le nombre de

dimensions sont connues de tous. Pour pouvoir traiter des ensembles de don-

nées de grande taille, une solution possible est d’effectuer un prétraitement de

l’ensemble de données avant d’appliquer l’algorithme interactif de fouille vi-

suelle. Pour ce faire, nous utilisons la théorie du consensus (avec une affecta-

tion visuelle des poids). Nous évaluons les performances de notre nouvelle ap-

proche sur des ensembles de données de l’UCI et du Kent Ridge Bio Medical

Dataset Repository.

1 Introduction

Nous nous intéressons au problème de prétraitement de grands ensembles de données.

Notre but est de réduire les informations contenues dans les ensembles de données volumi-

neux aux informations les plus significatives. Il existe des techniques expérimentalement

validées pour ce faire. D’un point de vue applicatif, un problème majeur se pose quant au

choix d’une de ses méthodes. Une solution qui constitue notre contribution dans ce travail

serait d’utiliser une combinaison de techniques ou de stratégies. A cet effet, nous nous ap-

puyons sur la théorie du consensus. L’utilisation de cette combinaison de stratégies ou

d’expertises peut être justifiée par l’un des faits suivants :

- il n’est pas possible de déterminer a priori quelle méthode de sélection de sous-ensemble

d’attributs est meilleure que toutes les autres (en tenant compte des différences entre le

temps d'exécution et la complexité),

- un sous-ensemble optimal d'attributs n'est pas nécessairement unique,

- la décision d'un comité d'experts est généralement meilleure que la décision d'un seul

expert.

Les résultats obtenus après des expérimentations permettent de conclure que l’approche

proposée réduit de façon significative l’ensemble de données à traiter et permet de les traiter

interactivement. Cette contribution commence par un état de l’art et la problématique du

- 59 - RNTI-E-6

Indexation de vues virtuelles dans un médiateur XML pour le traitement de XQuery Text

Clément Jamard*, Georges Gardarin*

Laboratoire PRiSM

Université de Versailles

78035, Versailles Cedex, France pré[email protected]

Résumé: Intégrer le traitement de requêtes de recherche d’information dans un

médiateur XML est un problème difficile. Ceci est notamment dû au fait que

certaines sources de données ne permettent pas de recherche sur mot-clefs et

distance ni de classer les résultats suivant leur pertinence. Dans cet article nous

abordons l’intégration des fonctionnalités principales du standard XQuery Text

dans XLive, un médiateur XML/XQuery. Pour cela nous avons choisi

d’indexer des vues virtuelles de documents. Les documents virtuels

sélectionnés sont transformés en objets des sources. L’opérateur de sélection

du médiateur est étendu pour supporter des recherches d’information sur les

documents de la vue. La recherche sur mots-clefs et le classement de résultat

sont ainsi supportés. Notre formule de classement de résultats est adaptée au

format de données semi-structurées, basé sur le nombre de mots-clefs dans les

différents éléments et la distance entre les éléments d’un résultat.

1 Introduction

XQuery devenant le standard pour interroger XML, de nouveaux besoins apparaissent

pour la recherche d’information. Buston et Rys (2003) spécifient des prédicats et

fonctionnalités de recherche d’information à intégrer à XQuery, comme la recherche

d’élément contenants des mots-clefs, le classement de résultats selon leur pertinence, la

recherche basé sur des suffixes ou préfixes de mots. Un premier ensemble des fonctionnalités

requises pour XQuery Text est défini par Buxton et Rys (2003). TexQuery, Amer-Yahia

(2004), en est le langage précurseur.

Certaines des fonctionnalités citées précédemment, comme la simple recherche de mots-

clefs, sont très communes et présentes dans la plupart des SGBD. Dans le cas de données

distribuées, il faut d’abord recomposer les partitions avant de pouvoir effectuer une

recherche sur le contenu ; d’importantes fonctionnalités souvent nécessaires aux applications

ne sont pas faciles à implanter dans un système distribué. Le classement des résultats, les

recherches conjonctives de mots-clefs, les recherches sur les racines de mots, leurs préfixes

ou suffixes, sont difficilement réalisables car il faut auparavant recomposer les données

dispersées.

- 65 - RNTI-E-6

Techniques de fouille de données pour la réécriture derequêtes en présence de contraintes de valeurs

Hélène Jaudoin∗, Frédéric Flouvat∗

∗Laboratoire LIMOS, UMR CNRS 6158Université Blaise Pascal - Clermont-Ferrand II,

63 177 Aubière cedex, France{hjaudoin,flouvat}@isima.fr

Résumé. Dans cet article, nous montrons comment les techniques de fouilles dedonnées peuvent résoudre efficacement le problème de la réécriture de requêtesen termes de vues en présence de contraintes de valeurs. A partir d’une forma-lisation du problème de la réécriture dans le cadre de la logique de descriptionALN (Ov), nous montrons comment ce problème se rattache à un cadre de dé-couverte de connaissances dans les bases de données. L’exploitation de ce cadrenous permet de bénéficier de solutions algorithmiques existantes pour la réso-lution du problème de réécriture. Nous proposons une implémentation de cetteapproche, puis nous l’expérimentons. Les premiers résultats démontrent l’intérêtd’une telle approche en termes de capacité à traiter un grand nombre de sourcesde données.

1 IntroductionAujourd’hui, les techniques d’analyse et d’intégration de données sont devenues des atouts

majeurs pour les entreprises et les services gouvernementaux. En effet, ces techniques per-mettent un gain de temps pour regrouper et croiser l’information distribuée. Dans le domainedu développement durable, ces techniques sont notamment indispensables afin de rassembler etd’analyser les pratiques agricoles et ainsi garantir la traçabilité des pratiques. Plus précisémentnos travaux se situent dans le cadre d’un projet 1 visant à mettre en place un système d’intégra-tion pour interroger les sources de données agricoles distribuées. Le système doit être flexiblepour permettre l’arrivée de nouvelles sources de données afin de suivre le processus d’infor-matisation du domaine agricole. En effet entre 2000 et 2003, le nombre d’exploitations ayantun accès à Internet a triplé 2. Il doit de plus permettre de traiter un grand nombre de sourcesde données car le domaine est susceptible d’accueillir, en plus des services déconcentrés desministères, un grand nombre d’exploitations.

Dans cet article, nous nous plaçons dans le cadre d’un système de médiation suivant uneapproche Local As View (LAV), où les vues sont décrites via des requêtes sur le schéma glo-bal. Cette approche est connue pour être flexible car l’ajout et la suppression de sources de

1Ce projet est réalisé en collaboration avec le Cemagref, http ://www.cemagref.fr/2http ://www.acta-informatique.fr/

- 77 - RNTI-E-6

Un index de jointure pour les entrepôts de données XMLHadj Mahboubi, Kamel Aouiche, Jérôme Darmont

ERIC, Université Lumière Lyon 25 avenue Pierre Mendès-France

69676 Bron Cedex{ hmahboubi | kaouiche | jdarmont}@eric.univ-lyon2.fr

Résumé. Les entrepôts de données XML proposent une base intéressante pourles applications décisionnelles qui exploitent des données hétérogènes et prove-nant de sources multiples. Cependant, les performances des SGBD natifs XMLétant actuellement limitées, il est nécessaire de trouver des moyens de les opti-miser. Dans cet article, nous proposons un nouvel index spécifiquement adapté àl’architecture multidimensionnelle des entrepôts de données XML, qui éliminele coût des jointures tout en préservant l’information contenue dans l’entrepôtinitial. Une étude théorique et des résultats expérimentaux démontrent l’effica-cité de notre index, même lorsque les requêtes sont complexes.

1 IntroductionLes technologies entrant en compte dans les processus décisionnels, comme les entrepôts

de données (data warehouses), l’analyse multidimensionnelle en ligne (On-Line Analysis Pro-cess ou OLAP) et la fouille de données (data mining), sont désormais très efficaces pour traiterdes données simples, numériques ou symboliques. Cependant, les données exploitées dans lecadre des processus décisionnels sont de plus en plus complexes. L’avènement du Web et laprofusion de données multimédia ont en grande partie contribué à l’émergence de cette nou-velle sorte de données. Dans ce contexte, le langage XML peut grandement aider à l’intégrationet à l’entreposage de ces données. C’est pourquoi nous nous intéressons aux travaux émergentssur les entrepôts de données XML (Golfarelli et al., 2001; Pokorný, 2001; Wolfgang et al.,2003; Baril et Bellahsène, 2003). Cependant, les requêtes décisionnelles exprimées en XMLsont généralement complexes du fait qu’elles impliquent de nombreuses jointures et agréga-tions. Par ailleurs, les systèmes de gestion de bases de données (SGBD) natifs XML présententactuellement des performances médiocres quand les volumes de données sont importants ouque les requêtes sont complexes. Il est donc crucial lors de la construction d’un entrepôt dedonnées XML de garantir la performance des requêtes XQuery qui l’exploiteront.

Plusieurs études traitent de l’indexation des données XML (Gupta et al.; Yeh et Gardarin,2001; Chung et al., 2002). Ces index optimisent principalement des requêtes exprimées enexpressions de chemin. Or, dans le contexte des entrepôts de données XML, les requêtes sontcomplexes et comportent plusieurs expressions de chemin. De plus, ces index opèrent sur unseul document et ne prennent pas en compte d’éventuelles jointures, qui sont courantes dans lesrequêtes décisionnelles. À notre connaissance, seul l’index Fabric (Cooper et al., 2001) permetactuellement de gérer plusieurs documents XML. Cependant, cet index ne prend pas en compte

- 89 - RNTI-E-6

Le forage distribué des données : une méthode simple, rapideet efficace

Mohamed Aounallah et Guy Mineau

Département d’informatique et de génie logicielPavillon Adrien-Pouliot, Université Laval

G1K 7P4, Canada{Mohamed.Aoun-Allah, Guy.Mineau}@ift.ulaval.ca,

http://w3.ift.ulaval.ca/∼moaoahttp://www.ift.ulaval.ca/Personnel/prof/mineau.htm

Résumé. Dans cet article nous nous attaquons au problème du forage detrèsgrandes bases de données distribuées. Le résultat visé est un modèle qui soit etprédictif et descriptif, appelé méta-classificateur. Pource faire, nous proposonsde miner à distance chaque base de données indépendamment. Puis, il s’agitde regrouper les modèles produits (appelés classificateursde base), sachant quechaque forage produira un modèle prédictif et descriptif, représenté pour nos be-soins par un ensemble de règles de classification. Afin de guider l’assemblage del’ensemble final de règles, qui sera l’union des ensembles individuels de règles,un coefficient de confiance est attribué à chaque règle de chaque ensemble. Cecoefficient, calculé par des moyens statistiques, représente la confiance que nouspouvons avoir dans chaque règle en fonction de sa couvertureet de son taux d’er-reur face à sa capacité d’être appliquée correctement sur denouvelles données.Nous démontrons dans cet article que, grâce à ce coefficient de confiance, l’agré-gation pure et simple de tous les classificateurs de base pourobtenir un agrégatde règles produit un méta-classificateur rapide et efficace par rapport aux tech-niques existantes.

1 Introduction

Ce papier traite du problème de forage de plusieurs bases de données gigantesques et géo-graphiquement distribuées dans le but de produire un ensemble de règles de classification quiexpliquent les groupements de données observés. Le résultat de ce forage sera donc un méta-classificateur aussi bien prédictif que descriptif. En d’autres termes, nous visons à produire unmodèle qui permet non seulement de prédire la classe de nouveaux objets, mais qui permetaussi d’expliquer les choix de ses prédictions. Nous croyons que ce genre de modèles, baséssur des règles de classification, devrait aussi être facile àcomprendre par des humains, ce quiest également l’un de nos objectifs. Il faut dire toutefois que nous nous plaçons dans le contexteoù il est impossible de rapatrier toutes ces bases dans un même site, et ce, soit à cause du tempsde téléchargement, soit à cause de l’impossibilité de traiter la base ainsi agrégée.

Dans la littérature, les techniques de forage distribué de données à la fois prédictives et des-criptives sont malheureusement peu nombreuses. La plupartd’entre elles tentent de produire

- 95 - RNTI-E-6

Une approche distribuée pour l’extraction de connaissances : Application à l’enrichissement de l’aspect factuel des BDG

Khaoula Mahmoudi*

Sami Faïz ** ***

* Ecole Supérieur des communications de Tunis (SUPCOM) [email protected]

** Institut National des Sciences Appliquées et de Technologie (INSAT) *** Laboratoire de Télédéction et Systèmes d’Informations à Références Spatiales (LTSIRS)

[email protected]

Résumé. Les systèmes d’informations géographiques (SIG) sont utilisés pour améliorer l’efficacité des entreprises et des services publics, en associant méthodes d’optimisation et prise en compte de la dimension géographique. Cependant, les bases de données géographiques (BDG) stockées dans les SIG sont restreintes à l’application pour laquelle elles ont été conçues. Souvent, les utilisateurs demeurent contraints de l’existant et se trouvent dans le besoin de données complémentaires pour une prise de décision adéquate. D’où, l’idée de l’enrichissement de l’aspect descriptif des BDG existantes. Pour atteindre cet objectif, nous proposons une approche qui consiste à intégrer un module de fouille de données textuelles au SIG lui même. Il s’agit de proposer une méthode distribuée de résumé de documents multiples à partir de corpus en-ligne. L’idée est de faire coopérer un ensemble d’agents s’entraidant afin d’aboutir à un résumé optimal.

1 Introduction

Le but d’un SIG est de fournir une aide à la décision dans des domaines divers. Souvent, il sert à produire des cartes répondant à un besoin spécifique. Il peut être utilisé pour associer une densité de population à chaque région sur une carte, la représentation de la présence de consommateurs potentiels d'un produit ou d'un service dans une région, etc. Les données sont dans tous les cas restreintes à l’application en cours et parfois on a besoin d’avoir des informations au-delà de ce qui est stocké dans la BDG. A titre d’exemple, une BDG créée pour une application de découpage administratif ne permet pas de fournir une réponse à une requête faisant intervenir des informations d’ordre économique, historique, etc. D’où, l’idée d’offrir des sources complémentaires d’informations sans nuire aux données préalablement fournies (Faïz et Mahmoudi, 2005). Pour atteindre cet objectif, nous avons bâti une approche pour la génération automatique de résumés de documents multiples pour fournir les informations complémentaires relatives aux entités géographiques manipulées par le SIG. Cette approche est basée sur trois types d’agents coopérant afin d’aboutir à un résumé optimal. Il s’agit d’un agent interface, des agents entité (géographiques) et des agents tâche. La communication entre ces agents est assurée par l’envoi de messages. L’approche est

- 107 - RNTI-E-6

Modèle conceptuel pour bases de données multidimensionnelles annotées

Guillaume Cabanac*, Max Chevalier*, **, Franck Ravat*, Olivier Teste*

*IRIT (Institut de Recherche en Informatique de Toulouse) – UMR 5505

Université Paul Sabatier – 118 route de Narbonne – 31062 Toulouse cedex 9 {Guillaume.Cabanac, Max.Chevalier, Franck.Ravat, Olivier.Teste}@irit.fr

**LGC (Laboratoire de Gestion et Cognition) – EA 2043 IUT « A » Paul Sabatier – 129 avenue de Rangueil – BP 67701 – 31077 Toulouse cedex 4

Résumé. Nos travaux visent à proposer une mémoire d'expertises décisionnel-les permettant de conserver et de manipuler non seulement les données déci-sionnelles mais aussi l'expertise analytique des décideurs. Les données déci-sionnelles sont représentées au travers de concepts multidimensionnels et l'expertise associée est matérialisée grâce au concept d'annotation.

1 Contexte et problématique Les systèmes d'aide à la décision visent à transformer les données opérationnelles en in-

formations facilement interprétables par les décideurs afin que ces derniers puissent effectuer des analyses complexes et prendre les meilleures décisions en temps utiles pour assurer la compétitivité et la pérennité de l'organisation considérée. Dans un tel contexte, plus que le patrimoine matériel, le patrimoine immatériel est important pour capitaliser un maximum d'informations, de connaissances et d'expertises afin de prendre les décisions adaptées. Nos travaux visent à proposer aux organisations plus qu'un système d'aide à la décision, un véri-table outil de Mémoire d'Expertises Décisionnelles (MED).

1.1 Les données décisionnelles Il est reconnu que les Bases de Données Multidimensionnelles (BDM) sont adaptées pour

le stockage et la manipulation des données décisionnelles (Inmon, 1996). Les modèles con-ceptuels (Ravat et al., 2005) des BDM organisent les données en sujets et axes d’analyses au sein d’un schéma en étoile (Kimball, 1996). Tout sujet d’analyse est représenté par un fait composé de plusieurs mesures (indicateurs d’analyse). Les dimensions représentant les axes d'analyse sont formées de paramètres en fonction desquels les mesures sont étudiées. Les paramètres sont organisés en hiérarchies, de la granularité la plus fine (attribut racine ser-vant d’identifiant à la dimension) à la plus générale (cet attribut est symbolisé par All).

1.2 Restitution de données décisionnelles : table multidimensionnelle Les données d’une BDM sont couramment visualisées au travers d’une Table Multidi-

mensionnelle (TM) : tableau affichant les valeurs d'un fait en fonction de deux dimensions

- 119 - RNTI-E-6

Comparaison de deux modes de représentation de donnéesfaiblement structurées en sciences du vivant

Rallou Thomopoulos∗, Patrice Buche∗∗, Ollivier Haemmerlé∗∗∗, Frédéric Mabille∗ etNongyao Mueangdee∗

∗INRA, UMR IATE, 2 place Viala, 34060 Montpellier cedex 1{rallou, mabille, nongyao}@ensam.inra.fr

∗∗INRA, UMR Mét@risk, 16 rue Claude Bernard, 75231 Paris [email protected]

∗∗∗GRIMM-ISYCOM, Univ. Toulouse le Mirail, Dépt. Mathématiques-Informatique5 allées Antonio Machado, 31058 Toulouse cedex

[email protected]

Résumé. Cet article présente deux modes de représentation de l’informationdans le cadre d’une problématique en sciences du vivant. Le premier, appliqué àla microbiologie prévisionnelle, s’appuie sur deux formalismes, le modèle rela-tionnel et les graphes conceptuels, interrogés uniformément via une même inter-face. Le second, appliqué aux technologies des céréales, utilise le seul modèlerelationnel. Cet article décrit les caractéristiques des données et compare les so-lutions de représentation adoptées dans les deux systèmes.

1 Introduction

L’étude de la représentation de données faiblement structurées (ou semi-structurées) aconnu une explosion récente avec l’émergence de l’internetet la popularité du standard XML.Abiteboul (1997) recense les principaux aspects pouvant caractériser ces données : une struc-ture irrégulière, implicite ou partielle ; un schéma qui se veut indicatif plutôt qu’impératif,souvent construita posteriori, de grande taille, évoluant rapidement ; des types de donnéeséclectiques et une difficulté à établir la distinction entreschéma et données.

De telles données sont courantes dans les sciences du vivant, où l’on trouve égalementd’autres “verrous” liés à la complexité des phénomènes étudiés (Keet, 2003) : des données dontla précision est limitée par les techniques de mesure, des données variables, non répétables,voire contradictoires, des paramètres nombreux et imbriqués, des données ne pouvant couvrirtous les cas d’expérimentation possibles. C’est notammenten génomique que les bases dedonnées biologiques ont été le plus tôt et le plus abondamment étudiées (Cherry et al., 1998).On trouve cependant des bases de données dans de nombreux autres domaines (environnement,botanique, etc.) (Keet, 2004), avec des modèles de représentation différents fondés notammentsur le modèle relationnel (Bukhman et Skolnick, 2001), le modèle objet (Raguenaud et al.,2002) ou les graphes (Zhong et al., 1999).

- 125 - RNTI-E-6

Reconnaissance automatique d’évènements survenant sur pa-

tients en réanimation à l’aide d’une méthode adaptative

d’extraction en ligne d’épisodes temporels

Sylvie Charbonnier*

*Laboratoire d'Automatique de Grenoble , BP 46, 38402 St Martin d’Hères France

tel : (33) 476-82-64-15 - fax : (33) 476-82-63-88 - email : [email protected]

Résumé : Ce papier présente la version adaptative d’un algorithme

d’extraction d’épisodes temporels développé précédemment. Les trois paramè-

tres de réglages de l’algorithme ne sont plus fixes. Ils sont modifiés en ligne en

fonction de la variance estimée du signal que l’on veut décomposer en épiso-

des temporels. La version adaptative de l’algorithme a été utilisée pour recon-

naître automatiquement des aspirations trachéales à partir de plusieures varia-

bles physiologiques enregistrés sur des patients hospitalisés en réanimation.

Des résultats préliminaires sont présentés dans ce papier.

1 Introduction

Les patients hospitalisés en unités de réanimation sont soumis à une surveillance étroite

de la part du personnel soignant. Un grand nombre de variables physiologiques sont enregis-

trées en ligne à des fréquences élevées (une mesure par seconde) sur ces patients. Ces enre-

gistrements produisent des flots de données temporelles importants, que le personnel soi-

gnant doit analyser à chaque visite au patient. Les services de réanimation sont en demande

d’outils d’aide à l’interprétation de ce flot de données, afin de limiter la charge cognitive que

leur interprétation représente (Calvelo et al., 99, Lowe et al., 01, Hunter and McIntosh, 99).

Afin d’aider le médecin dans sa tâche d’analyse des données, nous avons développé une

méthode d’extraction en ligne d’épisodes temporels permettant de transformer une série

temporelle univariée en une succession d’intervalles décrivant l’évolution de la variable.

L’information fournie par la méthode est de la forme suivante : « la variable est stable de-

puis l’instant t1 jusqu’à l’instant t2, à la valeur v1. Elle est croissante de l’instant t2 à

l’instant t3 de la valeur v1 à la valeur v2 … ». L’information fournie sur la tendance du

signal {stable, croissant, décroissant} correspond au vocabulaire utilisé par les médecins

pour décrire l’évolution d’un e physiologique. La méthode d’extraction d’épisodes se règle à

partir de 3 paramètres de réglages dont les valeurs dépendent des variables physiologiques

traitées, mais sont indépendants du patient ou de l’enregistrement, l’hypothèse sous-jacente

étant que le bruit s’ajoutant sur une variable biologique ne dépend pas du patient mais de la

variable monitorée. Or, dans la pratique, cette hypothèse n’est pas toujours vérifiée. La va-

riance des variables monitorés peut changer, suivant l’état physiologique du patient ou le

contexte des soins. Par exemple, la variance des variables respiratoires (ex: la fréquence

respiratoire) sera très différente suivant que le patient est en ventilation spontané ou en mode

- 137 - RNTI-E-6

Une approche multi-agent adaptative pour la simulation de schémas tactiques

Aydano Machado*, Yann Chevaleyre**, Jean-Daniel Zucker*

* Laboratoire d’Informatique de Paris VI (LIP6) – Université Paris 6

Boîte 169 – 4 Place Jussieu 75252 PARIS CEDEX 05

{Aydano.MACHADO, Jean-Daniel.ZUCKER}@lip6.fr http://www-poleia.lip6.fr/~{machado, zucker) ** LAMSADE – Université Paris-Dauphine

place du Maréchal de Lattre de Tassigny 75775, Paris

[email protected] http://www.lamsade.dauphine.fr/~chevaley

Résumé. Ce papier est consacré à la simulation ou à la réalisation automatique de schémas tactiques par un groupe d´agents footballeurs autonomes. Son ob-jectif est de montrer ce que peuvent apporter des techniques d'apprentissage par renforcement à des agents réactifs conçus pour cette tâche. Dans un pre-mier temps, nous proposons une plateforme et une architecture d'agents capa-ble d'effectuer des schémas tactiques dans des cas relativement simples. En-suite, nous mettons en œuvre un algorithme d'apprentissage par renforcement pour permettre aux agents de faire face à des situations plus complexes. Enfin, une série d'expérimentations montrent le gain apporté aux agents réactifs par l'utilisation d'algorithmes d'apprentissage.

1 Introduction

Dans le domaine des sports en équipe, de plus en plus d’entraîneurs font appel à des ou-tils informatiques durant leur activité pédagogique, en particulier de logiciels de simulation afin d’enseigner aux joueurs à améliorer leur tactique. Jusqu’à présent, ces logiciels qui per-mettaient essentiellement à l’entraîneur de faire se déplacer sur un écran des agents joueurs, nécessitaient de sa part de spécifier quasiment trame par trame la position des agents. Par voie de fait, un entraîneur souhaitant montrer le déploiement d’un schéma tactique particulier doit effectuer un important travail avant que la simulation puisse être lancée.

Dès lors, rendre les agents plus autonomes, améliorer le réalisme de leur comportement et leur capacité de prendre des décision allégerait le travail de l’entraîneur, et lui permettrait de n’avoir qu’à spécifier des schémas tactiques relativement abstrait pour voir comment des agents joueurs déploieraient ce schéma « intelligemment » sur le terrain.

Notre objectif est donc d’utiliser diverses techniques d’intelligence artificielle pour amé-liorer l’autonomie des agents devant déployer un schéma spécifié par l’entraîneur. Cette tâche peut être considéré comme un sous-ensemble du problème de la simulation sportive

- 143 - RNTI-E-6

Gestion de connaissances :Compétences et ressources pédagogiques

Olivier Gerbé∗, Thierno Diarra∗, Jacques Raynauld∗

∗HEC - MontréalMontréal (Québec) Canada H3T 2A7

{olivier.gerbe,thierno-mountaga.diarra,jacques.raynauld}@hec.ca

1 Introduction

Poussés par la demande des étudiants branchés, un grand nombre d’universités et d’éta-blissements scolaires se sont lancés dans le design, le développement et l’utilisation des tech-nologies de l’information et de la communication pour créer, partager et diffuser leur matérielpédagogique.

Le but de notre de recherche est de favoriser l’accès aux ressources pédagogiques afin depromouvoir la formation continue et la diffusion des derniers résultats de recherche. Plus pré-cisément, nous voulons développer un système de classification et d’organisation qui permettrade donner accès aux ressources pédagogiques créées par les professeurs suivant les besoins desutilisateurs. Cet accès pourra se faire :

– suivant la structure d’enseignement (plan de cours) ; ce sera le chemin d’accès privilégiédes étudiants inscrits dans une université ;

– suivant des ontologies de domaines ou par mots-clés ; ce sera le chemin d’accès privilé-gié du grand public qui recherche des documents sur un sujet ou un thème donné

– suivant les compétences que permettent de développer la lecture des documents ; ce serale chemin privilégié des personnes qui veulent parfaire leur formation ou acquérir denouvelles compétences.

2 Modèle de compétences et ressources pédagogiques

L’utilisation de la notion de compétence par les gestionnaires et les spécialistes des res-sources humaines, a permis aux organisations de comprendre l’importance de leurs ressourceshumaines et de reconnaître que les gens, les connaissances, les capacités et les habiletés réunisdans le milieu du travail constituent un levier fondamental pour leur réussite.

Suite à ce constat, de nombreuses recherches ont porté sur la compréhension et la définitionde la notion de compétence. Les conclusions d’une étude transcanadienne montre que les élé-ments communs qui ressortent le plus souvent dans la définition du concept de compétencesà travers les organismes canadiens sont : les connaissances, les habiletés, les capacités, lesaptitudes, les qualités personnelles, le comportement et l’impact sur le rendement du travail.

- 149 - RNTI-E-6

Gestion de connaissances: Compétences et ressources pédagogiques

Nous présentons ci-dessous une première version de notre modèle de compétence et deressources pédagogiques qui sera la base de notre outil d’accès aux ressources. La figure 1présente une vue d’ensemble du modèle.

Compétence

Compétence

Transversale

Compétence

Disciplinaire

Habileté

Connaissance

TypeHabileté

Discipline

TypeConnaissance

Niveau

Expertise

Activité

RessourcePédagogique

Cours Séance

utilise

concerne

a pour sujet

a pour degré

catégorise

catégorise

appartient

nécessite

dévelope

exige

utilisée dans utilisée dans

FIG. 1 – Vue d’ensemble du modèle de Compétence.

Une compétence est l’association d’une habileté et d’une connaissance, alors qu’une exper-tise est l’énoncé d’une compétence associée à un niveau. Les ressources pédagogiques exigentune expertise pour être utilisées et permettent de développer de nouvelles expertises. Ce mo-dèle est inspiré des travaux de Bloom (Bloom, 1956) et Paquette (Paquette, 2002).

3 Conclusion et Travail futur

Ce travail est la première partie du développement d’un serveur de ressources pédago-giques basés sur les compétences. Ce serveur s’intégrera dans l’architecture de Zone Cours(zonecours.hec.ca), outil de gestion de ressources pédagogiques de HEC Montréal, et viendracompléter nos outils de diffusions de connaissances vers le grand public.

Références

Bloom B. (1956).Taxonomy of Educational Objectives : The Classification of EducationalGoals, by a committee of college and university examiners. Handbook I : Cognitive Domain.New York : Longmans, Green.

Paquette G. (2002).Modélisation des connaissances et des compétences : un langage gra-phique pour concevoir et apprendre.Québec : Presses de l’université du Québec.

Summary

The aim of our of research is to give access to teaching resources according to users needsand according to competences they want to acquire. We present here a model of competencesand resources on which our future system will be based.

- 150 -RNTI-E-6

Alignement extensionnel et asymétrique de hiérarchiesconceptuelles par découverte d’implications entre concepts

Jérôme David∗, Fabrice Guillet∗

Régis Gras∗, Henri Briand∗

∗ LINA CNRS FRE 2729 - Equipe CODEcole Polytechnique de l’Université de Nantes

rue Christian Pauc, 44306 NANTES Cedex 3, Francejerome.david,fabrice.guillet,[email protected],

http://www.sciences.univ-nantes.fr/lina/fr/research/teams/EDC/index.html

Résumé.Dans la littérature, de nombreux travaux traitent de méthodes d’ali-gnement d’ontologies. Ils utilisent, pour la plupart, des relations basées sur desmesures de similarité qui ont la particularité d’être symétriques. Cependant, peude travaux évaluent l’intérêt d’utiliser des mesures d’appariement asymétriquesdans le but d’enrichir l’alignement produit. Ainsi, nous proposons dans ce pa-pier une méthode d’alignement extensionnelle et asymétrique basée sur la dé-couverte des implications significatives entre deux ontologies. Notre approche,basée sur le modèle probabiliste d’écart à l’indépendance appelé intensité d’im-plication, est divisée en deux parties consécutives : (1) l’extraction, à partir ducorpus textuel associé à l’ontologie, et l’association des termes aux concepts;(2) la découverte et sélection des implications génératrices les plus significativesentre les concepts. La méthode proposée est évaluée sur deux jeux de donnéesréels portant respectivement sur des profils d’entreprises et sur des cataloguesde cours d’universités. Les résultats obtenus montrent que l’on peut trouver desrelations pertinentes qui sont ignorées par un alignement basé seulement sur desmesures de similarité.

1 Introduction

Les ontologies ont été créées dans le but de conceptualiser et partager des connaissancesde manière structurée (Gruber, 1993). Leur usage en gestion des connaissances s’amplifie avecl’essor du Web sémantique. En effet, les ontologies ont la vertu de se traduire sous des formestrès variées depuis de simples taxonomies comme les systèmes catégories (Yahoo, OpenDi-rectory), en passant par des systèmes de métadonnées interopérables (Dublin Core Metadatainitiative) et allant jusqu’aux ontologies lourdes décrivant de véritables théories logiques. No-tamment, on trouve des ontologies différentes portant sur le même domaine. Il s’avère doncnécessaire de disposer de techniques pour relier ces ontologies. Dans cette optique, l’aligne-ment vise à trouver des relations entre deux ontologies (entre les classes, les relations, lespropriétés...).

- 151 - RNTI-E-6

Une mesure de proximité et une méthode de regroupementpour l’aide à l’acquisition d’ontologies spécialisées

Guillaume Cleuziou¤, Sylvie Billot¤, Stanislas Lew¤,Lionel Martin¤, Christel Vrain¤

¤Laboratoire d’Informatique Fondamentale d’Orléans (LIFO)Université d’Orléans

Rue Léonard de Vinci - 45067 ORLEANS Cedex 2pré[email protected]

Résumé. Cet article traite du regroupement d’unités textuelles dans une pers-pective d’aide à l’élaboration d’ontologies spécialisées. Le travail présenté s’ins-crit dans le cadre du projet BIOTIM. Nous nous concentrons ici sur l’une desétapes de construction semi-automatique d’une ontologie qui consiste à struc-turer un ensemble d’unités textuelles caractéristiques en classes susceptibles dereprésenter les concepts du domaine. L’approche que nous proposons s’appuiesur la définition d’une nouvelle mesure non-symétrique permettant d’évaluer laproximité entre lemmes, en utilisant leurs contextes d’apparition dans les do-cuments. En complément de cette mesure, nous présentons un algorithme declassification non-supervisée adapté à la problématique et aux données traitées.Les premières expérimentations présentées sur les données botaniques laissentpercevoir des résultats pertinents pouvant être utilisés pour assister l’expert dansla détermination et la structuration des concepts du domaine.

1 IntroductionL’exploitation de données textuelles issues de fonds scientifiques est un objectif de re-

cherche ambitieux dans le domaine de la gestion et de l’acquisition des connaissances. Unedes premières étapes pour la mise en place d’un système d’information est la constructiond’une ontologie du domaine. Dans cette étude, nous abordons le problème de constructiond’une ontologie spécialisée avec une approche mixte (ou semi-automatique). Pour cela, nousnous intéressons à l’étape d’extraction automatique de classes terminologiques susceptiblesd’être ensuite validées comme concepts puis structurées par un expert du domaine, l’embryond’ontologie résultant devant par la suite être enrichi automatiquement.

La tâche de regroupement de mots peut être envisagée de différentes manières (selon l’ap-plication visée, les connaissances disponibles sur le domaine ou les traitements possibles).Les études proposées dans ce domaine s’intéressent généralement à l’une des deux étapes sui-vantes : la définition d’une mesure de proximité entre mots et/ou la proposition d’une méthodede regroupement efficace.

Il existe de nombreuses mesures destinées à évaluer la proximité sémantique entre desmots. On peut classer ces mesures en trois grandes catégories : statistiques, syntaxiques ou

- 163 - RNTI-E-6

Web sémantique pour la mémoire d'expériences d'une

communauté scientifique : le projet MEAT

Khaled Khelif*, Rose Dieng-Kuntz*, Pascal Barbry**

* INRIA Sophia Antipolis 2004, route des Lucioles 06902 Sophia Antipolis - FRANCE

{Khaled.Khelif, Rose.Dieng}@sophia.inria.fr ** IPMC 660, route des Lucioles 06560

Sophia Antipolis - FRANCE [email protected]

Résumé. Cet article décrit le projet MEAT (Mémoire d'Expériences pour l'Analyse du Transcriptome) dont le but est d'assister les biologistes travaillant dans le domaine des puces à ADN, pour l'interprétation et la validation de leurs résultats. Nous proposons une aide méthodologique et logicielle pour cons-truire une mémoire d'expériences pour ce domaine. Notre approche, basée sur les technologies du web sémantique, repose sur l'utilisation des ontologies et des annotations sémantiques sur des articles scientifiques et d’autres sources de connaissances du domaine. Notre approche peut être généralisée à d'autres domaines requérant des expérimentations et traitant un grand flux de données (protéomique, chimie,etc.).

1 Introduction

De plus en plus de connaissances scientifiques sont accessibles soit grâce à des docu-ments publiés sur le web, soit dans des bases de données. Certaines de ces connaissances reposent sur des interprétations humaines de résultats d’expériences. Ces connaissances sont, entre autres, indispensables pour la vérification, la validation ou l’enrichissement du travail des chercheurs du domaine considéré. Mais la quantité énorme de données provenant de sources internes ou externes aux organisations rend très difficile la détection, le stockage et l’exploitation de ces connaissances. Ceci est le cas de la recherche dans le domaine de la biologie moléculaire et plus particulièrement dans le domaine des puces à ADN.

Les biologistes travaillant dans ce domaine manipulent de grandes quantités de données dans différentes conditions expérimentales et doivent se référer à des milliers de publications scientifiques liées à leurs expériences. Ces biologistes ont donc sollicité un support méthodo-logique et logiciel qui les aiderait dans la validation et/ou l’interprétation de leurs résultats et qui leur faciliterait la planification de nouvelle expérimentation.

C’est dans ce contexte que le projet MEAT a été proposé en fournissant des solutions permettant de remédier à ces problèmes.

Après la présentation du contexte général et de la problématique de ce travail, nous dé-taillons notre approche adoptée pour MEAT (Khelif et al, 2005) ainsi que les différentes

- 175 - RNTI-E-6

Interrogation et Vérification de documents OWLdans le modèle des Graphes Conceptuels

Thomas Raimbault∗, Henri Briand∗∗, Rémi Lehn∗∗, Stéphane Loiseau∗

∗LERIA, Université d’Angers, 2 bd Lavoisier 49045 ANGERS Cedex 01{thomas.raimbault, stephane.loiseau}@info.univ-angers.fr

∗∗LINA, École Polytechnique de Nantes, rue C. Pauc BP 50609 44306 Nantes Cedex 3{henri.briand, remi.lehn}@polytech.univ-nantes.fr

Résumé.OWL est un langage pour la description d’ontologies sur le Web. Ce-pendant, en tant que langage, OWL ne fournit aucun moyen pour interpréter lesontologies qu’il décrit, et étant orienté machine, il reste difficilement compré-hensible par l’humain. On propose une approche de visualisation, d’interroga-tion et de vérification de documents OWL, regroupées dans un unique environ-nement graphique : le modèle des graphes conceptuels.

1 Introduction

OWL (W3C, 2004) - Ontology Web Language - est un langage pour décrire des ontologieset les diffuser sur le Web. Il est important de noter que d’une part, OWL est un langage etqu’à ce titre il ne fournit aucun moyen pour interroger ou vérifier ses documents, et d’autrepart étant orienté machine, il reste difficilement compréhensible par l’humain. Des outils ontdonc été créés pour répondre à ces exigences. Cependant, ces outils traitent soit séparémentl’un de ces besoins (HP, 2000; WonderWeb, 2002), soit les traitent de façon globale (Protégé,2004; Haarslev et Müller, 2001) mais avec des interrogations prédéfinies et un ensemble figéde vérifications.

Dans cet article, notre approche est de regrouper dans un unique environnement, adaptablepar l’utilisateur, à la fois la représentation de documents OWL, ainsi que des outils de raison-nement sur ces documents. Pour se faire, nous avons choisi comme base de travail le modèledes graphes conceptuels (GCs). Ce modèle, introduit par (Sowa, 1984), est un modèle formelet visuel de représentation des connaissances muni d’une sémantique logique. Nous utilisonsdans cet article le modèle issu de (Mugnier et Chein, 1996) et étendu aux GCs emboîtés (Cheinet Mugnier) avec règles (Salvat, 1998) et contraintes (Baget et Mugnier, 2002).

Notre travail fournit deux contributions fondamentales. La première est de coder les diffé-rentes notations qui décrivent - c’est-à-dire le métamodèle - un sous-langage OWL dans un sup-port du modèle des GCs, noté supportOWL (Section 2). Ainsi, nous proposons une traductiongénérique - et donc automatisable - d’un document OWL en un GC, défini sur ce supportOWL,qui lui est sémantiquement équivalent et que nous appelonsGC-document OWL(Section 3).La seconde contribution (Section 4) est une méthode, utilisant les opérateurs qu’offre le mo-dèle des GCs, pour interroger un document OWL ou pour en vérifier la validité au travers despécifications orientées ontologie.

- 187 - RNTI-E-6

Une nouvelle mesure sémantique pour le calcul de lasimilarité entre deux concepts d’une même ontologie

Emmanuel Blanchard, Mounira HarzallahPascale Kuntz, Henri Briand

Laboratoire d’informatique de Nantes AtlantiqueSite École polytechnique de l’université de Nantes

rue Christian PaucBP 50609 - 44306 Nantes Cedex 3

[email protected]

Résumé. Les ontologies sont au coeur du processus de gestion des connais-sances. Différentes mesures sémantiques ont été proposées dans la littératurepour évaluer quantitativement l’importance de la liaison sémantique entre pairesde concepts. Cet article propose une synthèse analytique des principales mesuressémantiques basées sur une ontologie modélisée par un graphe et restreinte iciaux liens hiérarchiques is-a. Après avoir mis en évidence différentes limites desmesures actuelles, nous en proposons une nouvelle, la PSS (Proportion of SharedSpecificity), qui sans corpus externe, tient compte de la densité des liens dans legraphe reliant deux concepts.

1 IntroductionAssociées notamment au succès des nouveaux langages du Web sémantique, les ontolo-

gies suscitent un intérêt croissant au sein des communautés de l’ingénierie et de la gestiondes connaissances (Gruber, 1993; Fürst, 2004). Cependant, malgré le développement d’outilsd’aide à leur manipulation, le développement et l’exploitation des ontologies restent des phasescomplexes dans un processus global de gestion de connaissances. En amont, une des difficultésmajeures concerne la structuration des ensembles de concepts dont la taille ne cesse de croître.Et en aval, le problème consiste à rechercher efficacement des sous-ensembles de concepts àla fois en temps de calcul et en pertinence sémantique des résultats.

Pour faciliter ces tâches, le recours à des mesures sémantiques semble judicieux ; il permetde constituer une «connaissance heuristique » directement exploitable. De façon générale, unemesure sémantique est une application de l’ensemble C×C des paires de concepts d’une ontolo-gie dans IR+ qui permet d’évaluer quantitativement la proximité ou l’éloignement sémantiquede deux concepts. Quelque soit le domaine applicatif, la pertinence de la mesure utilisée estétroitement associée à l’efficacité des algorithmes qui l’intègrent. Cependant, son choix resteun problème délicat. Pour comparer les mesures existantes, plusieurs approches complémen-taires sont envisageables (Budanitsky, 1999). L’analyse formelle vise à étudier précisémentleurs propriétés à la fois algorithmiques et statistiques. La comparaison avec le jugement hu-main analyse la corrélation entre les valeurs des mesures et les évaluations subjectives de sujets

- 193 - RNTI-E-6

Classification des comptes-rendus mammographiques à partir d’une ontologie radiologique en OWL

Amel Boustil*, Sahnoun Zaidi **,

Ziad Mansouri *, Christine Golbreich***

* Département d’informatique, Université de Skikda, BP 26 Route El-hadaik 21000, Skikda, Algérie

[email protected] ** Département d’informatique, Université Mentouri Constantine, LIRE, Constantine 2500

[email protected] *** Université de Rennes 1, 35043 Rennes, France

[email protected]

Résumé. Dans cet article, nous proposons un système de classification des comptes-rendus mammographiques, reposant sur une ontologie radiologique décrivant les signes radiologiques et les différentes classes de la classification ACR des systèmes BIRADS dans le langage OWL. Le système est conçu pour, extraire les faits issus des textes libres de comptes-rendus en étant dirigé par l’ontologie, puis inférer la classe correspondante et en déduire l’attitude à tenir à partir de la classification ACR. Ce travail présente la construction d’une on-tologie radiologique mammaire dans le langage OWL et son intérêt pour clas-ser automatiquement les comptes-rendus de mammographies.

1 Introduction

Les comptes-rendus de mammographies écrits en texte libre sont difficiles à interpréter et à analyser par un programme machine. La difficulté est liée à la nature informelle de ces comptes-rendus. Trouver un processus qui permet de structurer les comptes-rendus et donner une représentation formelle de leur contenu est une tâche difficile vue la complexité du lan-gage naturel et des connaissances médicales (Zweigenbaum, 1994).

L’objectif principal de cet article est de montrer une utilisation possible dans le domaine médical des ontologies formelles en OWL, le langage standard d’ontologie du Web (OWL, 2004). Ce travail vise à fournir un outil d’aide à l’interprétation des comptes-rendus médi-caux mammographiques et à leur classification. Il a consisté d’abord à concevoir et réaliser une ontologie regroupant tous les concepts du domaine : concepts radiologiques, concepts pathologiques, et différentes classes ACR. Les classes ont été définies à partir de la classifi-cation dite ACR (ACR, 2000) et ont été représentées dans le langage OWL DL en utilisant l’éditeur Protégé et son plugin OWL (Holger, 2004). Notre système a pour tâche, d’extraire les faits correspondant au contenu des comptes-rendus de mammographies, puis, d’inférer la classe pathologique correspondante selon la classification ACR en utilisant le raisonnement par subsumption, et d’en déduire la conduite à tenir.

- 199 - RNTI-E-6

Choix du taux d’élagage pour l’extraction de la terminologie.Une approche fondée sur les courbes ROC

Mathieu Roche∗, Yves Kodratoff∗∗

∗LIRMM - UMR 5506, Université Montpellier 2,34392 Montpellier Cedex 5 - France

[email protected]∗∗LRI - UMR 8623, Université Paris-Sud,

91405 Orsay Cedex - [email protected]

Résumé. Le choix du taux d’élagage est crucial dans le but d’acquérir une ter-minologie de qualité à partir de corpus de spécialité. Cet article présente uneétude expérimentale consistant à déterminer le taux d’élagage le plus adapté.Plusieurs mesures d’évaluation peuvent être utilisées pour déterminer ce tauxtels que la précision, le rappel et le Fscore. Cette étude s’appuie sur une autremesure d’évaluation qui semble particulièrement bien adaptée pour l’extractionde la terminologie : les courbes ROC (Receiver Operating Characteristics).

1 IntroductionCet article présente une étude expérimentale consistant à évaluer le taux d’élagage le plus

adapté pour l’extraction de la terminologie. Nous allons décrire ci-dessous notre méthode glo-bale d’extraction de la terminologie et rigoureusement définir l’élagage.

La première phase de notre travail d’extraction de la terminologie à partir de corpus spé-cialisés consiste à normaliser les textes en utilisant des règles de nettoyage décrites par Roche(2004). Les corpus que nous utilisons sont décrits dans la section 3 de cet article. L’étape sui-vante consiste à apposer des étiquettes grammaticales à chacun des mots du corpus en utilisantl’étiqueteur ETIQ développé par Amrani et al. (2004). ETIQ est un système interactif s’ap-puyant sur l’étiqueteur de Brill (1994) qui améliore la qualité de l’étiquetage de corpus spé-cialisés. Nous pouvons alors extraire l’ensemble des collocations Nom-Nom, Adjectif-Nom,Nom-Adjectif1, Nom-Préposition-Nom d’un corpus spécialisé. L’étape suivante consiste à sé-lectionner les collocations les plus pertinentes selon des mesures statistiques décrites par Rocheet al. (2004c); Roche (2004). Les collocations sont des groupes de mots définis par Halliday(1976); Smadja (1993). Nous appelons termes, les collocations pertinentes.

Les termes binaires (ou ternaires pour les termes prépositionnels) extraits à chaque itérationsont réintroduits dans le corpus avec des traits d’union afin qu’ils soient reconnus commedes mots à part entière. Nous pouvons ainsi effectuer une nouvelle recherche terminologiqueà partir du corpus avec prise en compte de la terminologie du domaine acquise aux étapesprécédentes. Notre méthode itérative, proche des travaux de Evans et Zhai (1996), est décrite

1Corpus en français uniquement

- 205 - RNTI-E-6

Fast-MGB : Nouvelle Base Générique Minimale de RèglesAssociatives

Chiraz Latiri∗, Lamia Ben Ghezaiel∗∗

Pr. Mohamed Ben Ahmed∗∗

∗ Faculté des Sciences de TunisDépartement InformatiqueUnité de recherche URPAH

Campus Universitaire El Manar, TunisTunisie

[email protected]∗∗Ecole Nationale des Sciences de l’Informatique

Laboratoire RIADI-GDLCampus Universitaire La Manouba, Tunis

[email protected]

[email protected]

Résumé. Le problème de l’exploitation des règles associatives est devenu pri-mordial, puisque le nombre des règles associatives extraites des jeux de donnéesréelles devient très élevé. Une solution possible consiste à ne dériver qu’unebase générique de règles associatives. Cet ensemble de taille réduite permet degénérer toutes les règles associatives via un système axiomatique adéquat. Danscet article, nous proposons une nouvelle approche FAST-MGB qui permet dedériver, directement à partir du contexte d’extraction formel, une base génériqueminimale de règles associatives.

1 IntroductionDans le cadre de ce travail, nous nous intéressons au problème d’extraction de règles asso-

ciatives, initialement introduit par Agrawal et al. Agrawal et al. (1993). Plusieurs travaux baséssur l’analyse formelle des concepts (AFC) Ganter et Wille (1999), proposent des approchesde sélection de règles associatives qui véhiculent le maximum de connaissances utiles. Cesapproches reposent généralement sur l’extraction d’un sous-ensemble générique de toutes lesrègles associatives, appelé base générique, tout en satisfaisant certaines caractéristiques ju-geant de sa qualité, mais qui dans la plupart des cas ne sont pas satisfaites dans leurs totalitésKryszkiewicz (2002).

Dans cet article, nous introduisons une nouvelle approche de génération d’une base mini-male et générique (MGB) de règles associatives. L’originalité de cette approche est qu’elle estautonome : elle commence directement à partir du contexte d’extraction pour dériver une basegénérique minimale de règles associatives FAST-MGB.

- 217 - RNTI-E-6

Extraction et identification d’entités complexes à partir detextes biomédicaux

Julien Lorec∗,∗∗, Gérard Ramstein∗∗, Yannick Jacques∗

∗INSERM U601, Département de Cancérologie, Équipe 3: cytokines et récepteurs{julien.lorec,yjacques}@nantes.inserm.fr

∗∗LINA, Équipe C.O.D, École polytechnique de l’université de [email protected]

Résumé.Nous présentons ici un système d’extraction et d’identification d’enti-tés nommées complexes à l’intention des corpus de spécialité biomédicale. Nousavons développé une méthode qui repose sur une approche mixte à base d’en-semble de règles a priori et de dictionnaires contrôlés. Cet article expose lestechniques que nous avons mises en place pour éviter ou minimiser les pro-blèmes de synonymie, de variabilité des termes et pour limiter la présence denoms ambigus. Nous décrivons l’intégration de ces méthodes au sein du proces-sus de reconnaissance des entités nommées. L’intérêt de cet outil réside dans lacomplexité et l’hétérogénéité des entités extraites. Cette méthode ne se limitepas à la détection des noms des gènes ou des protéines, mais s’adapte à d’autresdescripteurs biomédicaux. Nous avons expérimenté cette approche en mesurantles performances obtenues sur le corpus de référence GENIA.

1 Introduction

A cette date, de nombreuses méthodes d’étiquettage d’entités biologiques pour les corpusde spécialité ont été proposées ; quelles soient à base de règles (Fukuda et al. (1998)) ou en-core réposant sur des techniques d’apprentissage (Collier et al. (2000)). Néanmoins, la simpledétection de la présence d’une entité nommée dans un texte ne suffit pas pour l’identifier et l’as-socier à une instance d’entité biologique particulière. Le couplage des méthodes d’extractiondes entités nommées avec l’utilisation de dictionnaires semble être une solution particulière-ment adaptée à ce type de problématique (Koike et al. (2003)). De plus, la majorité de cestechniques d’extraction d’entités nommées ont été développées dans le but de ne détecter quequelques types particuliers et spécifiques d’objets biologiques, notamment les gènes et les pro-téines, et ne peuvent être facilement adaptés à d’autres contextes.Il existe trois principales difficultés à prendre en compte lors d’une recherche à base de dic-tionnaire :

– la présence de termes synonymes et la résolution des différentes abréviations et acro-nymes,

– la variabilité des mots tant au niveau de l’orthographe que de la morphologie et de la syn-taxe mais aussi d’un point de vue lexico-sémantique, de la présence d’insertions/déletionset permutations,

- 223 - RNTI-E-6

Reconnaissance automatique de concepts à partir d’uneontologie

Valentina Ceausu, Sylvie Desprès

Université René DescartesCRIP5 – Equipe IAA – Groupe SBCUFR Mathématiques et Informatique

45 rue des Saints-Pères75006 PARIS

[email protected]@math-info.univ-paris5.fr

Résumé Ce papier présente une approche qui s’appuie sur une ontologie pour reconnaître automatiquement des concepts spécifiques à un domaine dans un corpus en langue naturelle. La solution proposée est non-supervisée et peut s’appliquer à tout domaine pour lequel une ontologie a été déjà construite. Un corpus du domaine est utilisé dans lequel les concepts seront reconnus. Dans une première phase, des connaissances sont extraites de ce corpus en faisant appel à des fouilles de textes. Une ontologie du domaine est utilisée pour éti-queter ces connaissance. Le papier donne un aperçu des techniques de fouilles employées et décrit le processus d ‘étiquetage. Les résultats d‘une première expérimentation dans le domaine de l’accidentologie sont aussi présentés.

1 Introduction

L’important volume de documents disponibles en langue naturelle et leur évolution ra-pide font émerger la nécessité de définir des approches permettant de retrouver rapidement des informations pertinentes dans ces documents.

Ce papier présente une approche qui utilise une ontologie de domaine pour identifier au-tomatiquement des concepts du domaine dans un corpus en langue naturelle. Cette identifica-tion de concepts peut servir dans différents contextes : annotation des documents, indexation d’une collection de documents, etc. L’approche proposée est complètement automatique et non-supervisée, mise à part l’utilisation d’une ontologie de domaine. Etant donnés une onto-logie O et un corpus C, le but est de retrouver dans C des termes w qui sont l’expression linguistique des concepts de l’ontologie O. On peut ainsi étiqueter les termes retrouvés dans le corpus par des concepts de l’ontologie. Cet étiquetage est réalisé en trois étapes : (1) une première étape emploie des techniques de fouille de textes pour identifier des termes du domaine dans le corpus; (2) pour chaque terme w retrouvé, le voisinage sémantique V(w) est identifié ; (3) en supposant que les relations dans le voisinage du terme w soient déjà dans l’ontologie, le positionnement des relations dans l’ontologie et des mesures statistiques sont utilisés pour étiqueter le terme w.

- 229 - RNTI-E-6

Multi-catégorisation de textes juridiques et retour de pertinence

Vincent Pisetta, Hakim Hacid, Djamel A. Zighed

Laboratoire ERIC – 5, av. Pierre Mendès-France- 69767 Bron- France

[email protected],

[email protected],

[email protected]

Résumé. La fouille de données textuelles constitue un champ majeur du

traitement automatique des données. Une large variété de conférences, comme

TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille

de textes juridiques, dans l’objectif est le classement automatique de ces textes.

Nous utilisons des outils d’analyses linguistiques (extraction de terminologie)

dans le but de repérer les concepts présents dans le corpus. Ces concepts

permettent de construire un espace de représentation de faible dimensionnalité,

ce qui nous permet d’utiliser des algorithmes d’apprentissage basés sur des

mesures de similarité entre individus, comme les graphes de voisinage. Nous

comparons les résultats issus du graphe et de C4.5 avec les SVM qui eux sont

utilisés sans réduction de la dimensionnalité.

1 Introduction

Le cadre général de l’apprentissage automatique part d’un fichier d’apprentissage

comportant n lignes et p colonnes. Les lignes représentent les individus et les colonnes les

attributs, quantitatifs ou qualitatifs observés pour chaque individu ligne. Dans ce contexte, on

suppose également que l’échantillon d’apprentissage est relativement conséquent par rapport

au nombre d’attributs. Généralement la taille de l’échantillon est de l’ordre de 10 fois le

nombre de variables pour espérer obtenir une certaine stabilité, c'est-à-dire une erreur en

généralisation qui n’est pas trop loin de l’erreur en apprentissage. De plus, l’attribut à prédire

est supposé à valeur unique. C’est une variable à valeurs réelles dans le cas de la régression

et c’est une variable à modalités discrètes, appelées classes d’appartenance, dans le cas du

classement. Ces questions relatives aux rapports entre taille d’échantillon et taille de l’espace

des variables sont étudiées de façon très approfondies dans les publications relatives à

l’apprentissage statistique (Vapnik, 1995). Dans ce papier nous décrivons une situation

d’apprentissage qui s’écarte significativement du cadre classique tel que décrit plus haut. En

effet, le contexte expérimental ne nous permet pas de disposer immédiatement d’un

ensemble d’apprentissage conséquent, chaque individu peut appartenir à plusieurs classes

simultanément, et chaque individu, au lieu d’être décrit par un ensemble attributs-valeurs,

l’est par un texte en langage naturel en anglais.

- 235 - RNTI-E-6

Combinaison de l’approche inductive (progressive) et linguistique pour l’étiquetage morphosyntaxique des

corpus de spécialité

Ahmed Amrani*,**, Yves Kodratoff**

*ESIEA Recherche, Pôle ECD, 11 rue Baudin, 74200 Ivry sur Seine, France

[email protected]

**LRI, UMR CNRS 8623, Bât. 490, Université de Paris-Sud 11, 91405 Orsay, France

[email protected]

Résumé. Les étiqueteurs morphosyntaxiques sont de plus en plus performants et cependant, un véritable problème apparaît lorsque nous voulons étiqueter

des corpus de spécialité pour lesquels nous n’avons pas de corpus annotés. La

correction des ambiguïtés difficiles est une étape importante pour obtenir un

corpus de spécialité parfaitement étiqueté. Pour corriger ces ambiguïtés et di-

minuer le nombre de fautes, nous utilisons une approche itérative appelée In-

duction Progressive. Cette approche est une combinaison d’apprentissage au-

tomatique, de règles rédigées par l’expert et de corrections manuelles qui se

combinent itérativement afin d’obtenir une amélioration de l’étiquetage tout en

restreignant les actions de l’expert à la résolution de problèmes de plus en plus

délicats. L’approche proposée nous a permis d’obtenir un corpus de biologie

moléculaire « correctement » étiqueté. En utilisant ce corpus, nous avons ef-

fectué une étude comparative de quatre étiqueteurs supervisés.

1 Introduction

Dans le cadre d’un processus complet de fouille de textes (Kodratoff et al., 2003, Amrani

et al., 2004a), nous nous sommes intéressés à l’étiquetage morphosyntaxique des corpus de

spécialité. L’étiquetage morphosyntaxique consiste à affecter à chaque mot dans la phrase

son étiquette morphosyntaxique, en prenant en considération le contexte et la morphologie de

ce mot. L’étiquette morphosyntaxique est composée de la catégorie syntaxique du mot (nom

commun, nom propre, adjectif, etc.) et souvent comporte des informations morphologiques

(genre, nombre, personne, etc.). Les outils informatiques nécessaires à l’opération

d’étiquetage sont appelés « étiqueteurs ».

Un problème se pose lorsque les étiquettes des mots sont ambiguës. Par exemple, le mot

functions peut être un nom au pluriel (‘biological functions are…’) ou bien un verbe au sin-

gulier (‘this gene functions as…’). Le problème à résoudre est celui de trouver l’étiquette

correcte selon le contexte. La correction de ces ambiguïtés est une étape importante pour

obtenir un corpus de spécialité « parfaitement » étiqueté. Pour lever ces ambiguïtés et donc

diminuer le nombre de fautes d’étiquetage, nous proposons une approche interactive et itéra-

tive appelée Induction Progressive. Cette approche est une combinaison d’apprentissage

automatique, de règles rédigées par l’expert et de corrections manuelles. L’induction pro-

- 247 - RNTI-E-6

�

�

��

��

�

�� !"##�$��

%��&��'��&�� (��&��

%��)*++,,,&� &�� (��&��

�� -.��/(0��1� �� 2�� /��/��0 ��3��!/"!#�� -��4�#��

� ��&� ��'��%( ��&�� ()� �/&��

%��)*++,,,&��%( ��&�� ()� �/&��+�� )/+�

�

��5��)�� 2��4��4�� 2��6��&��

�� 4��)�� 7�� 4��)� ��)� � ��&�

8�� 2��)�� 4�� )��

�� 7�� 0�9�0�:� 8�� 2�%�� )��

��2�%��; )�&�-�� )��)��2(

�%��2��&�� 7��)��%��4��&�

��)�2��2��2� ��4)2� �� 2�

�� 4�� 2��)�2�2��&�

��

�� 4� �� 4�� 6� �� )�2�� 4��&� -��

�� 2� �� )��)��4�� )��)��)�� 2�)��

)��%��%��) ��4�� )�2��4��&�

��)�2�� )��4��2��0��<=>?>@&�

��)��7��)��6�� )�2�� 2�� 6��4�� &�

��)�2��&�� 7��)�2�� 2��(

)��&�-%�� A��))�B��4��&�

-��$��C��<=>>�@�� 2��(7��(

��3�� &� ��2� �� 2� <"##=@� 2�� 2�� 2��&� ��

��)3�� D�� 2� )�� 2�� 7�� 4��&��%�� &�

<"##=@�)��)��)��2� �� 4� ��2� � ��)�2�� (

� ��&�� 3�� 6��)�2�� E)��<�� @&�

F�� <"###@� ��)�2�� 4�� )�� 2� �� *�

�� 7��E�� )%��:�� 2��

��))� � �� &�

�� 4� �� )�� 2�%�� 2��7�� (

7��.G��H��I�� <"##�@&�9 �� F�0E�� <"##�@��)�� (

�� G�� 6� �� )�2�� <)�2� 4�� 4��:@��

) ��:�

-�)�� %� � �� 2� �� &� 0�� C,�(0��

<"##"@��)�2��%��4��7�)%�&�-��7�)%�� 6�)��

- 259 - RNTI-E-6

Extraction multilingue de termesà partir de leur structure morphologique

Delphine Bernhard∗

∗TIMC-IMAGInstitut de l’IngØnierie et de l’Information de SantØ

FacultØ de MØdecineF-38706 LA TRONCHE [email protected]

http://www-timc.imag.fr/Delphine.Bernhard

Les mØthodes d’extraction automatique de termes utilisent couramment des patrons dØ-crivant la structure des termes (Ibekwe-Sanjuan et Sanjuan, 2004; Enguehard, 1992; Vergne,2005). Dans les domaines scienti�ques ou techniques comme la mØdecine (Namer, 2005), denombreux termes appartiennent au vocabulaire savant et sont construits à partir de formantsclassiques grecs ou latins situØs en dØbut (extra-, anti-) ou en �n de mot (-graphe, -logie).La mØthode que nous proposons utilise la structure morphologique des termes en vue de leurextraction et de leur regroupement1.

Le systŁme extrait tout d’abord les mots du corpus puis identi�e les formants à l’aide del’expression rØguliŁre suivante : ([aio]-) ?(\w{3,}[aio])-. MŒme si cette expression rØguliŁre estlimitØe aux formants se terminant par a, i ou o, elle n’est pas uniquement valable pour le fran-çais. On trouvera, par exemple, "chimio-hormonothØrapie" en français, "chemo-radiotherapy"en anglais ou "Chemo-radiotherapie" en allemand.

Une fois les formants identi�Øs, les termes sont repØrØs à l’aide d’un patron qui dØcritleur structure morphologique : F+M oø F est un formant et M un mot du corpus de longueursupØrieure à 3. Le caractŁre + indique la succession possible de plusieurs formants en dØbutde terme. Lorsque ce patron s’applique à un des mots du corpus, deux termes sont reconnus :le terme de structure F+M et le terme de structure M. Ainsi, à partir du mot "radiothØrapie"qui contient le formant "radio", on extrait les termes "radiothØrapie" et "thØrapie".

A�n de faciliter l’analyse des termes extraits, des familles de termes sont formØes en re-groupant les termes contenant le mŒme mot M. Le mot M est appelØ reprØsentant de la famille.De plus, deux familles sont rØunies si leurs reprØsentants ont une chaîne initiale commune delongueur supØrieure ou Øgale à 4 et si l’on retrouve le mŒme formant dans un terme de chaquefamille. Le reprØsentant �nal de chaque famille est le terme le plus frØquent.

Les rØsultats de l’extraction terminologique sont prØsentØs sous forme de liste pondØrØeau format HTML (voir �gure 1). Ce type de liste se caractØrise par l’utilisation d’un code decouleur et d’une taille de police dØpendant de la frØquence d’occurrence d’un terme (VØronis,2005). Seuls les termes reprØsentants de chaque famille sont af�chØs et le poids d’une familledans la reprØsentation �nale est determinØ par la frØquence cumulØe de tous les termes de lafamille.

1Ce travail a été soutenu en partie par la Commission européenne (projet NOESIS, IST-2002-507960)

- 271 - RNTI-E-6

Extraction multilingue de termes à partir de leur structure morphologique

FIG. 1 � Visualisation des termes sous forme de liste pondérée (à gauche) et détail d’unefamille de termes (à droite)

Le systŁme a ØtØ expØrimentØ sur 4 corpus de textes couvrant deux domaines scienti�quesdistincts, celui de la volcanologie et du cancer du sein, dans deux langues diffØrentes, le fran-çais et l’anglais. Les premiers rØsultats obtenus montrent que l’utilisation de la structure mor-phologique permet de mettre à jour des termes peu frØquents qu’une approche purement frØ-quentielle ne pourrait identi�er. Ces deux approches sont donc complØmentaires. L’algorithmede regroupement permet quant à lui de rassembler les variantes orthographiques, �exionnelleset dØrivationnelles des termes dans une mŒme famille.

RéférencesEnguehard, C. (1992). ANA Apprentissage Naturel Automatique d’un Réseau Sémantique. Ph.

D. thesis, UniversitØ de Technologie de CompiŁgne.Ibekwe-Sanjuan, F. et E. Sanjuan (2004). Mining Textual Data through Term Variant Cluster-

ing: the TermWatch System. In Actes de Recherche d’Information Assistée par Ordinateur(RIAO 2004), pp. 487�503.

Namer, F. (2005). MorphosØmantique pour l’appariement de termes dans le vocabulaire mØdi-cal : approche multilingue. In Actes de TALN 2005, pp. 63�72.

Vergne, J. (2005). Une mØthode indØpendante des langues pour indexer les documents del’internet par extraction de termes de structure contrôlØe. In Actes de CIDE 8.

VØronis, J. (2005). Nuage de mots d’aujourd’hui. http://aixtal.blogspot.com/2005/07/lexique-nuage-de-mots-daujourdhui.html.

SummaryThis articles describes a method for the automatic extraction of terms from corpora of

specialised texts. It makes use of morphological elements located at the beginning of words todiscover terms and group them in families. Results are displayed as a weighted list.

- 272 -RNTI-E-6

Accès aux connaissances orales par le résumé automatique

Benoît Favre∗,∗∗ Jean-François Bonastre∗∗, Patrice Bellot∗∗, François Capman∗

∗Thales, Laboratoire MMP, 160 Bd de Valmy, 92700 Colombes,[email protected]

∗∗Université d’Avignon, LIA, 339 Ch des Meinajaries, 84000 Avignon,[email protected]

[email protected]@univ-avignon.fr

Le temps nécessaire pour écouter un flux audio est un facteur réduisant l’accès efficace àde grandes archives de parole. Une première approche, la structuration automatique des don-nées, permet d’utiliser un moteur de recherche pour cibler plus rapidement l’information. Leslistes de résultats générées sont longues dans un souci d’exhaustivité. Alors que pour des do-cuments textuels, un coup d’oeil discrimine un résultat interessant d’un résultat non pertinant,il faut écouter l’audio dans son intégralité pour en capturer le contenu. Nous proposons doncd’utiliser le résumé automatique afin de structurer les résultats des recherches et d’en réduirela redondance.

Structuration Recherche Résumé parléAudio

utilisateur

Les données radiophoniques exploitées pour cette approche sont issues de la campagneESTER (Galliano et al., 2005), évaluatrice de la structuration automatique d’émissions et debulletins à caractère informatif. Le processus de structuration de notre système est le suivant :segmentation en classes acoustiques (Fredouille et al., 2004), segmentation en locuteurs (Is-trate et al., 2005), transcription de la parole (Nocera et al., 2004), segmentation thématique(Sitbon et Bellot, 2004), et reconnaissance d’entités nommées (Favre et al., 2005). Grâce àcette structuration, un moteur de recherche basé sur le modèle vectoriel permet de présenter àl’utilisateur la liste des segments correspondant à son besoin en information.

Fondé sur l’observation que 70% des phrases d’un résumé écrit manuellement proviennentdes textes d’origines, le résumé par extraction est l’approche la plus utilisée actuellement endomaine ouvert pour le texte. En prenant pour hypothèse que cette observation est similairepour la parole (les titres des journaux radiodiffusés), nous l’appliquons à la fois pour extrairedes étiquettes thématiques structurant hiérarchiquement les résultats et pour extraire les seg-ments les plus représentatifs du contenu des résultats.

L’algorithme Maximal Marginal Relevance(MMR), proposé par (Goldstein et al., 2000)pour sélectionner les segments maximisant la couverture en information tout en minimisant saredondance, peut être appliqué pour sélectionner des mots-clés comme étiquettes thématiquesdont on obtient une hiérarchie en faisant varier la granularité. Le critère de sélection par gain en

- 273 - RNTI-E-6

https://www.researchgate.net/publication/235533877_The_LIA's_French_Broadcast_News_Transcription_System?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==

https://www.researchgate.net/publication/221489251_The_ESTER_phase_II_evaluation_campaign_for_the_rich_transcription_of_French_broadcast_news?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==

https://www.researchgate.net/publication/220816666_Robust_Named_Entity_Extraction_from_Large_Spoken_Archives?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==

https://www.researchgate.net/publication/221486821_Broadcast_news_speaker_tracking_for_ESTER_2005_campaign?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==


https://www.researchgate.net/publication/228930323_Evaluation_de_methodes_de_segmentation_thematique_lineaire_non_supervisees_apres_adaptation_au_francais?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==

https://www.researchgate.net/publication/235533878_Segmentation_en_macro-classes_acoustiques_d_emissions_radiophoniques_dans_le_cadre_d_ESTER?el=1_x_8&enrichId=rgreq-f48cd446fbb63f8a137dd46dba0f1487-XXX&enrichSource=Y292ZXJQYWdlOzIyMDc4NjY2NztBUzoxMDQwMzU1NjY3NTE3NTRAMTQwMTgxNTQyMDY1NA==

Accès aux connaissances orales par le résumé automatique

couverture de MMR est modifié en transposant le paradigme de représentation des documentspar des vecteurs de mots, afin de représenter des mots par des vecteurs de documents.

t̂i+1 = argmaxt/∈selλsim(~t, ~cres)− (1− λ)sim(~t, ~csel) (1)

Ici, ~t est le vecteur modélisant un mot-clé,~cres le vecteur centroïde des résultats,~csel

le vecteur centroïde de la sélection courante etsim() la similarité mesurée par le cosinus del’angle entre les vecteurs. Dans le domaine de l’information radiodiffusée, les mots-clés utiliséssont des entités nommées car les noms de lieux, de personnes et d’organisation permettent decaractériser des événements. Ces étiquettes thématiques sont proposées à l’utilisateur qui, enles sélectionnant, implique la restriction des résultats par conjonction avec les termes de larequête. Parallèlement, le résumé des segments audio est généré selon MMR classique pourpermettre à l’utilisateur d’écouter l’équivalent d’un court bulletin d’informations.

Bien que le système permette une forte réduction du temps d’écoute, le résumé audio estsoumis aux mêmes problèmes majeurs que le résumé textuel, à savoir les références non réso-lues et la réduction de redondance à l’interieur même des segments. S’ajoutent les erreurs de lastructuration automatique et les désagréments liés à la parole comme les difficultés d’élocutionou les recouvrements de locuteurs dont l’impact est présent à l’écoute. Nous projetons pour lasuite de ces travaux, d’adresser ces problèmatiques et d’évaluer le système d’accès aux flux dedonnées parlées.

Références

Favre, B., F. Béchet, et P. Nocéra (2005). Robust named entity extraction from large spokenarchives. InHLT-EMNLP’05.

Fredouille, C., D. Matrouf, G. Linares, et P. Nocera (2004). Segmentation en macro-classesacoustiques d’émissions radiophoniques dans le cadre d’ester. InJEP’04.

Galliano, S., E. Geoffrois, D. Mostefa, K. Choukri, J.-F. Bonastre, et G. Gravier (2005). TheESTER phase II evaluation campaign for the rich transcription of french broadcast news. InProc. Eurospeech’05.

Goldstein, J., V. Mittal, J. Carbonell, et J. Callan (2000). Creating and evaluation multi-document sentence extract summaries. InCIKM 2000 - ACM, McLean, VA USA.

Istrate, D., N. Scheffer, C. Fredouille, et J.-F. Bonastre (2005). Broadcast news speaker trackingfor ester 2005 campaign. InEurospeech’05.

Nocera, P., C. Fredouille, G. Linares, D. Matrouf, S. Meignier, J.-F. Bonastre, D. Massonié, etF. Béchet (2004). The LIA’s french broadcast news transcription system. InSWIM.

Sitbon, L. et P. Bellot (2004). Evaluation de méthodes de segmentation thématique linéairenon supervisées après adaptation au français. InTALN 2004, Fès, Maroc.

Summary

We propose to reduce listening time in spoken archives access interfaces : search engineresults are structured according to automatically extracted concept hierachies and the rendon-dancy of results is removed using automatic summarization techniques.

- 274 -RNTI-E-6














�

�

��

� ��

��

�

��

��

�� !�� "#�$�

%�� &��'%�� & ��

�� &#��'%�� & ��

�

�� (�!��"�)�#��#��*�"��"��+��#��,�*��#-��

��+��"��#�� *��#�� .� ��

��"��$��&�/��"�)�#��#��*��"��0�� *��$��

�*�� #-��"� ��$�� "�� $��&� /�� *��1�� #"��

%�� +��"� #�� "�� &� ��

��"�� *��"��0�� #�� )��+�� #�� 2*��*� �� 0��

!��0��0��32�!4&�5��*��*��"�)�#��*��$*��

*��1��#�� &�/��"�)�#��"��-��#-��0��*)��#��

��0�� #-�� #�� #�� "%"�� *�". ��"�&� 5�� $*"��

��"�)�#��#��*��"��+��%�� *�1��

#��"��#��$�*�" "#��&�

� ��

!��#��"�)�#��#��*�"��"��+��#��"��#��

#-�� ,� )�+��#-�� *�� 3��0"�"��#��54�#��1��+��

#�� "��+�� %�"�"�� *�� #��

��*�"��&� 6�� )�� )��#�� ,��#"�� #�� %��"��+��

��7� ��#��*� �� &�!��"�)�#��#��*�"��"��+��*��

�� *�� !�� 8�� 3!8�4� 3��9��

!��#��2��)��:;;�4��2*��*� ��0��!��0��0��32�!4�3!��#��<��0��

:;;=4&� 5�� #-��#� *�"�� 1�� *�� *�� #�� #��$� �"�)�#��

�$*��+��*��+��#�� #��"�)�#��#��*��2�!��**��>�� *��

�**��*��"�&��*�1��*�#��*�"��"��*�� *��$��$�#��#��#�� )��$�

#��*��1��#��2�!��$*��"�)�#�&�?��$*"��#��"��,�

��*�� *��#" ��+��*�� *��$��"��&�

!8�� 2�!� �� #�� "�)�#�� "�� +�� #-�� *�� #��

#� ��$��&�!��#� ��*��@��#�� $��#��*��0��*)��#��

*)��&� A�� #-�� !8�� 2�!� *��#�� %�� +�� *�"��

)�+��*�� &��*��$��"��"��+��#��

��%�� #��#�� +��*�"��&�!��#�� "��

�� #�� #�� &� �-�� #�� "�� (� ��.

- 275 - RNTI-E-6

Exploration interactive de bases de connaissances : un retour

d’expérience

Christophe Tricot, Christophe Roche

Équipe Condillac « Ingénierie des Connaissances » Laboratoire LISTIC - Campus Scientifique

73 376 Le Bourget du Lac cedex

http://www.ontology.univ-savoie.fr {christophe.tricot, christophe.roche}@univ-savoie.fr

Résumé : La navigation au sein de bases de connaissances reste un problème ouvert. S’il existe plusieurs paradigmes de visualisation, peu de travaux sur les retours d’expérience sont disponibles. Dans le cadre de cet article nous nous sommes intéressés aux différents paradigmes de navigation interactive au sein de bases documentaires annotées sémantiquement ; l’accès à la base de connaissances s’effectuant à travers l’ontologie du domaine d’application. Ces paradigmes ont été évalués dans le cadre d’une application industrielle (mécanique des fluides et échangeurs thermiques) en fonction de critères définis par les utilisateurs. L’analyse des retours d’expérience1 nous a permis de spécifier et de réaliser un nouveau navigateur dédié à la gestion de documents techniques annotés par une ontologie de domaine : le « Eye Tree », navigateur de type « polar fisheye view ».

1 Introduction

Le problème abordé dans le cadre de cet article est celui de l’accès à une base de connaissances annotée sémantiquement par une ontologie du domaine.

Les connaissances peuvent être de natures diverses : documents scientifiques et techniques, fiches de retour d’expérience, descriptions de compétences, documents multimédias, etc.. L’utilisation d’une ontologie2 du domaine permet d’indexer et de classer les éléments de la base de connaissances. L’indexation repose sur l’analyse des contenus textuels (et péri textes ou méta données dans le cas des documents multimédias) au regard du vocabulaire associé à l’ontologie. La classification considère les concepts de l’ontologie

1 Les travaux décrits dans cet article ont été menés en collaboration avec la société Ontologos Corp. associée à l’équipe Condillac de l’Université de Savoie dans le cadre de sa reconnaissance en tant qu’Equipe de Recherche Technologique par le Ministère de la Recherche. 2 Nous considèrerons dans ce contexte qu’une ontologie traduit un point de vue « consensuel » d’une communauté de pratique au niveau linguistique – les mots d’usages – et au niveau conceptuel – les concepts de l’ontologie sur lesquels repose la signification des termes –.

- 287 - RNTI-E-6

Un modèle de qualité de l’information

Rami Harrathi*, Sylvie Calabretto* *

* LIRIS CNRS UMR 5205 - INSA de Lyon, Bâtiment Blaise Pascal 7, avenue Jean Capelle,

F-69621 Villeurbanne Cedex Rharrathi @yahoo.fr

**LIRIS CNRS UMR 5205 - INSA de Lyon, Bâtiment Blaise Pascal 7, avenue Jean Capelle, F-69621 Villeurbanne Cedex

Sylvie.Calabretto @insa-lyon.fr

Résumé. Ce travail s’intègre dans la problématique générale de la recherche d’information ; et plus particulièrement dans la personnalisation et la qualité d’information. Dans cet article nous proposons un modèle multidimensionnel de la qualité de l’information décrivant les différents facteurs de qualité in-fluant sur la personnalisation de l’information. Ce modèle permet de structurer les différents facteurs de qualité de l’information dans une hiérarchie afin d’assister l’utilisateur dans la construction de son propre profil selon ses be-soins et ses exigences en termes de qualité.

1 Introduction

Avec l'expansion d'Internet et du Web, on assiste à une prolifération des ressources hété-rogènes (données structurées, documents textuels, composants logiciels, images), conduisant à des volumes considérables. Dans ce contexte les outils d’accès à l’information (moteurs Web, SGBD, etc.) délivrent, dans des temps de plus en plus longs, des résultats massifs en réponse aux requêtes des utilisateurs, générant ainsi une surcharge informationnelle dans laquelle il est souvent difficile de distinguer l’information pertinente d’une information se-condaire, ou même du bruit.

Une solution à l’amélioration de cette pertinence est la personnalisation ou l’adaptation des réponses fournies aux utilisateurs selon leurs profils c'est-à-dire selon leurs besoins et leurs préférences1. Ainsi la formulation du besoin d’information est devenue un des éléments clés pour obtenir des résultats pertinents dans un processus d’accès à l’information. Pour

1 Notre travail se situe dans le cadre du projet ACI APMD (Accès Personnalisé à des Masses de Don-nées) dont l’objectif est de mener une réflexion globale sur la personnalisation et la qualité de l’information dans un environnement à grande échelle. Site Web: http://apmd.prism.uvsq.fr/ Partenaires: CLIPS-IMAG Grenoble, IRISA Lannion, IRIT Toulouse, LINA Nantes, LIRIS Lyon, PRiSM Versailles

- 299 - RNTI-E-6

Annotation sémantique de pages web

Sylvain Tenier∗,∗∗ Amedeo Napoli∗∗ Xavier Polanco∗ Yannick Toussaint∗∗

∗Institut de l’Information Scientifique et Technique54514 Vandoeuvre-lès-Nancy, France

{polanco,tenier}@inist.frhttp://www.inist.fr/uri/accueil.htm

∗∗Laboratoire Lorrain de Recherche en Informatique et ses ApplicationsBP 239, 54506 Vandoeuvre lès Nancy Cedex, France

{napoli,toussaint,tenier}@loria.frhttp://www.loria.fr/equipes/orpailleur

Résumé. Cet article présente un système automatique d’annotation sémantiquede pages web. Les systèmes d’annotation automatique existants sont essentiel-lement syntaxiques, même lorsque les travaux visent à produire une annotationsémantique. La prise en compte d’informations sémantiques sur le domaine pourl’annotation d’un élément dans une page web à partir d’une ontologie supposed’aborder conjointement deux problèmes : (1) l’identification de la structuresyntaxique caractérisant cet élément dans la page web et (2) l’identification duconcept le plus spécifique (en termes de subsumption) dans l’ontologie dontl’instance sera utilisée pour annoter cet élément. Notre démarche repose sur lamise en oeuvre d’une technique d’apprentissage issue initialement des wrappersque nous avons articulée avec des raisonnements exploitant la structure formellede l’ontologie.

Le système que nous présentons permet d’automatiser l’annotation sémantique de pages web.Notre objectif est de classifier des pages concernant des équipes de recherche, afin de pou-voir déterminer par exemple qui travaille où, sur quoi et avec qui. La classification s’appuiesur des mécanismes de raisonnement qui nécessitent une représentation formelle du contenudes pages ; nous exploitons ainsi une ontologie qui représente les concepts du domaine et lesrelations entre les concepts dans un langage de représentation des connaissances.

Notre système génère des annotations sémantiques qui sont des métadonnées sur les élé-ments d’un document liées à une ontologie. Pour cela nous devons résoudre deux grandesquestions. La première est d’identifier automatiquement, dans une page web, les éléments quisont pertinents. La seconde est de déterminer quels sont les concepts de l’ontologie les plusspécifiques possible, pour annoter chacun de ces éléments.

L’automatisation repose sur un apprentissage à partir d’un corpus constitué d’élémentsmarqués par un expert. Le marquage associe à chaque concept de l’ontologie des élémentsde la page en rapport avec ce concept. L’apprentissage génère un wrapper capable d’annoterdes éléments du document sous la forme d’instances de concepts et de rôles de l’ontologiefournie. Des mécanismes de raisonnement exploitant l’ontologie sont utilisés pour déterminer

- 305 - RNTI-E-6

Visualisation en Gestion des ConnaissancesDéveloppement d’un nouveau modèle graphique

Graph’Atanor

Bruno Pinaud∗,∗∗, Pascale Kuntz∗∗, Fabrice Guillet∗∗, Vincent Philippé∗

∗Knowesia SASAtlanpôle, La Fleuriaye

BP 40703, 44481 Carquefou Cedex{bruno.pinaud, vincent.philippe}@knowesia.fr

http://www.knowesia.fr∗∗Laboratoire d’Informatique de Nantes Atlantique (LINA)

site Ecole PolytechniqueLa Chantrerie - rue Christian PaucBP 50609, 44306 Nantes Cedex 3

{pascale.kuntz, bruno.pinaud, fabrice.guillet}@univ-nantes.frhttp://www.sciences.univ-nantes.fr/lina/fr

Résumé.Les systèmes de gestion des connaissances servent de support pour lacréation et la diffusion de mémoires d’entreprises qui permettent de capitaliser,conserver et enrichir les connaissances des experts. Dans ces systèmes, l’inter-action avec les experts est effectuée avec des outils adaptés dans lesquels uneformalisation graphique des connaissances est utilisée. Cette formalisation estsouvent basée au niveau théorique sur des modèles de graphesmais de façonpratique, les représentations visuelles sont souvent des arbres et des limitationsapparaissent par rapport aux représentations basées sur des graphes. Dans cetarticle nous présentons le modèle utilisé par le serveur de connaissances Atanorqui utilise des arbres pour visualiser les connaissances, et nous développons unenouvelle approche qui permet de représenter les mêmes connaissances sous laforme de graphes en niveaux. Une analyse comparative des deux méthodes dansun contexte industriel de maintenance permet de mettre en valeur l’apport desgraphes dans le processus de visualisation graphique des connaissances.

1 Introduction

L’explosion des quantités de données stockées sur différents supports informatique conjoin-tement à l’avènement des Technologies de l’Information et de la Communication a introduitdes bouleversements importants dans le management des entreprises. En plus des connais-sances explicites (courriers électroniques, procédures,notes de services, ...), il faut capitaliserl’ensemble des connaissances tacites, c’est à dire les connaissances qui ne sont pas formali-sables aisément avec des mots (bonnes pratiques, savoir-faire, ...)(Alavi et Leidner, 2001; Earl,2001). L’objectif est de rendre cette connaissance accessible aux utilisateurs concernés, de la

- 311 - RNTI-E-6

Algorithme semi-interactif pour la sélection de dimensions

Lydia Boudjeloud, François Poulet

ESIEA Pôle ECD

38, rue des docteurs Calmette et Guérin

Parc Universitaire de Laval-Changé

53000 Laval

boudjeloud|[email protected]

Résumé. Nous présentons un algorithme génétique semi-interactif de sélection

de dimensions dans les grands ensembles de données pour la détection

d'individus atypiques (outliers). Les ensembles de données possédant un

nombre élevé de dimensions posent de nombreux problèmes aux algorithmes

de fouille de données, une solution est d'effectuer un pré-traitement afin de ne

retenir que les dimensions "intéressantes". Nous utilisons un algorithme

génétique pour le choix du sous-ensemble de dimensions à retenir. Par ailleurs

nous souhaitons donner un rôle plus important à l'utilisateur dans le processus

de fouille, nous avons donc développé un algorithme génétique semi-interactif

où l’évaluation des solutions n'élimine pas complètement la fonction

d'évaluation mais la couple avec une évaluation de l'utilisateur. Enfin,

l'importante réduction du nombre de dimensions nous permet de visualiser les

résultats de l'algorithme de détection d'outlier. Cette visualisation permet à

l'expert des données d'étiqueter les éléments atypiques (erreurs ou simplement

des individus différents de la masse).

1 Introduction

Nous nous intéressons à la recherche d'outliers (individus atypiques) dans les ensembles

de données ayant un grand nombre de dimensions. Pour pouvoir traiter de tels ensembles de

données (par exemple les ensembles de données de fouille de texte ou de bio-informatique),

la plupart des algorithmes de fouille de données actuels nécessitent un prétraitement

permettant de réduire le nombre de dimensions (avec plus ou moins de perte d'information).

L'approche la plus intuitive pour appréhender le problème des grandes dimensions est

d'énumérer tous les sous-ensembles de dimensions possibles et de rechercher le sous-

ensemble qui satisfait la problématique traitée. Cependant, le fait d'énumérer (rechercher)

toutes les combinaisons possibles est un problème NP-difficile (Narenda et Fukunaga, 1977).

Parmi les solutions proposées pour ce problème, on retrouve la réduction de dimensions

(combinaison de dimensions, généralement linéaire) et la sélection de dimensions (on

n’utilise qu’un sous-ensemble des dimensions originales). L'avantage de cette dernière

solution est que nous ne perdons pas l'information que pourrait apporter la dimension, car

elle est considérée individuellement non en combinaison (linéaire) avec d'autres dimensions.

Les techniques de sélection de dimensions consistent donc à réduire l'ensemble des

- 323 - RNTI-E-6

Visualisation interactive de données avec des méthodes àbase de points d’intérêt

David Da Costa∗,∗∗, Gilles Venturini∗

∗Laboratoire d’InformatiqueEcole Polytechnique de l’Université de Tours

64, Avenue Jean Portalis, 37200 Tours, [email protected],

[email protected]://www.antsearch.univ-tours.fr/webrtic

∗∗AgicomInstitut d’Etudes

3, degrés Saint Laumer, 41000 Blois, [email protected]

http://www.agicom.fr/

Résumé.Nous présentons dans cet article une méthode de visualisation inter-active de données numériques ou symboliques permettant à unutilisateur expertdu domaine d’obtenir des informations et des connaissancespertinentes. Nousproposons une approche nouvelle en adaptant l’utilisationdes points d’intérêtsdans un contexte de fouille visuelle de données. A partir d’un ensemble de pointsd’intérêt disposés sur un cercle, les données sont visualisées à l’intérieur de cecercle en fonction de leur similarité à ces points d’intérêt. Des opérations inter-actives sont alors définies : sélectionner, zoomer, changerdynamiquement lespoints d’intérêts. Nous évaluons les propriétés d’une telle visualisation sur desdonnées aux caractéristiques connues. Nous décrivons une application réelle encours dans le domaine de l’exploration de données issues d’enquêtes de satis-faction.

1 Introduction

Les méthodes de fouille visuelle de données ("Visual data mining") tentent de résoudre lesproblèmes d’interprétation et d’interaction dans les processus de découverte de connaissancesen faisant appel à des visualisations dynamiques et à des requêtes graphiques sur les donnéeset connaissances représentées (Cleveland, 1993), (Shneiderman, 1996), (Wong et Bergeron,1997). A titre d’exemples classiques, nous pouvons citer les visages de Chernoff (Chernoff,1973) qui représentent des données sous la forme d’icones ens’appuyant sur le fait que l’esprithumain analyse facilement les ressemblances et différences entre visages. Nous pouvons citerégalement les "scatter plots" (Becker et Cleveland, 1987) qui permettent d’obtenir des vuesmultiples sur les données et d’observer les données à l’aidede techniques graphiques comme le"brushing" qui donne la possibilité de sélectionner des données dans une vue tout en soulignantces mêmes données dans les autres vues.

- 335 - RNTI-E-6

Modélisation informationnelle : un cadre méthodologiquepour représenter des connaissances évolutives spatialisables

Jean-Yves Blaise*, Iwona Dudek*

* UMR CNRS/MCC 694 MAP-gamsauEAML 184, av. de Luminy

13288 Marseille Cedex 09 Francejyb(idu)@gamsau.map.archi.fr

http://www.map.archi.fr

Résumé. Pour comprendre et représenter les évolutions du bâti, question re-nouvelée avec le développement des NTIC, l’analyste s’appuie sur desconnaissances évolutives ayant dans notre champ d’application - le patrimoinearchitectural – un caractère spatialisable (par l’attachement à un lieu ) maisaussi des caractéristiques handicapantes (hétérogénéité, incertitudes et contra-dictions, etc.). En réponse, nous utilisons ce caractère spatialisable pour inté-grer les ressources constituant le jeu de connaissances propre à chaque édifice:théorie, sources documentaires, observations. Cette démarche que nous nom-mons modélisation informationnelle a pour objectif un gain de compréhensiondu lieu architectural et des informations qui lui sont associées. Notre contribu-tion introduit les filiations de cette démarche, le cadre méthodologique qui lamatérialise, et discute de son application au cas concret de la place centrale deCracovie (Rynek ��) pour en évaluer l’apport potentiel en matière de ges-tion et de visualisation de connaissances.

1 Introduction

La compréhension des évolutions du bâti s’appuie sur l’analyse conjointe de connaissan-ces spécifiques et de connaissances génériques ayant, dans le champ du patrimoine architec-tural, des caractéristiques très handicapantes vis à vis des technologies actuelles de gestiond’information localisées spatialement. Ces connaissances s’appuient en effet sur des infor-mations hétérogènes, réparties, fortement pluridisciplinaires, mais également floues, incer-taines, régulièrement remises en question, à ré-interroger comparativement sur un territoiredonné ou entre territoires. Dès lors l’apport attendu de l’application des NTIC au domaine dupatrimoine en matière de production et surtout d’échanges de connaissances reste pourl’essentiel prospectif, si ce n’est du strict point de vue de la vulgarisation.

Pourtant, de nombreux travaux menés traitent des aspects liés à l’acquisition de données3D (De Luca et al., 2003), la gestion d’informations localisées spatialement (Sebillo, 2003),ou encore de la représentation de données spatio-temporelles (Renolen, 1997)(Spaccapietra,et al., 2004). En parallèle, l’acquis en matière de visualisation de données (y compris à ca-ractère spatio-temporelles) dans le champ de la visualisation d’informations constitue une

- 347 - RNTI-E-6

Gestion de connaissances: compétences et ressources pédagogiques

Documents

Transcript of Gestion de connaissances: compétences et ressources pédagogiques