Description des outils (mathematiques, linguistiques et informatiques) impliques par la construction...

34
Inform. Stor. Retr. Vol.9, pp. 527-560. Pergamon Press 1973. Printed in Great Britain DESCRIPTION DES OUTILS (MATHEMATIQUES, LINGUISTIQUES ET INFORMATIQUES) IMPLIQUES PAR LA CONSTRUCTION D'UNE CHAINE AUTOMATIQUE INTEGREE DE TRAITEMENT DE L'INFORMATION TEXTUELLE ET GRAPHIQUE A. BORILLO, M. BORILLO, L. BOURRELLY, E. CHOURAQUI, W. FERNANDEZ DE LA Vt~GA, A. GUI3NOCHE, A. HESNARD, J. TOGNOTTI et J. VIRBEL Centre National de la Recherche Scientifique, Unit6 de Recherche Analyse Documentaire et Calcul en Arch6ologie, 31 Chemin Joseph-Aiguier, 13 Marseille 9 °, France Summary---Given representative samples (about 250) of a corpus of ancient amphorae (from the western Mediterranean) the morphology of which has been registered from photographs and drawings with a pencil follower, the system answers in real time questions asked in natural language about the amphorae shape; this shape is expressed in non-specific and relatively simple terms (long, thick, different) or terms both synthetic and characteristic of the field (type Dressel 1, ovoid, etc.). Concerning the methodological point of view, the cartesian co-ordinates of the shape are processed through methods of analytical geometry so as to operate an automatic segmentation. The segments obtained are subjected to different taxinomic and statistical algorithms bringing out elements of differentiation at an elementary level. Other kinds of processings but with the same finality are concerned with the global percep- tion of the form. All the cartesian co-ordinates stored are thus provided with a refined and complex structure. This structure is correlated with the structure of the lexicon representing the scientific discourse related to the morphology of amphorae. At another stage, a syntactic-semantic analysis translates the question in natural language into a "metalanguage" making possible the conversion to the stored analytical information with the help of the lexicon above mentioned. The operation is done in real time. This work gives the opportunity to solve original problems in linguistics, mathematics and computing science as well as to design descriptive and typological methods in archaeology. R~sum6---Etant donn6 un 6chantillon repr6sentatif (environ 250) d'un corpus amphores d'anciennes (de M6diterran6e occidentale) dont la morphologie a 6t6 enregistr6e a partir de photos a l'aide d'un lectcur de courses, le syst6me r6pond en temps r6el aux questions pos6es en langage naturel au sujet de la forme des amphores; cette forme est exprim6e en termes non-sp6cifiques et relativement simples (long, 6pais, diff6ren0 ou en termes h la lois synth6tiques et caract6ristiques du domaine (type Dressel 1, ovoYde, etc.). En ce qui concerne le point de vue m6thodologique, les coordonn6es cart6siennes de la forme sont trans- form6es par des m6thodes de g6om6trie analytique de fa~on b. obtenir une segmentation automatique. Les segments obtenus sont soumis h divers algorithmes taxinomiques et statistiques qui font ressortir les 616ments de diff6renciation h un niveau 616mentaire. D'autres sortes de transformations avec la m6me finalit6 con- cement la perception globale de la forme. Toutes les coordonn6es cart6siennes emmagasin6es sont ainsi pourvues d'une structure complexe. Cette structure est li6e/~ la structure du lexique qui repr6sente le discours scientifique relatif h la morpho- logic des amphores. A tree 6tape diff6rente, une analyse syntactique-s6mantico traduit la question du langage naturel darts un "m6talangage", rendant possible la conversion en donn6es analytiques stok6es ~t l'aide du lexique d6 jh mentionn6. L'op6ration est men6e en temps r6el. Cette experience donne l'occasion de r6soudre des probl6mes linguistiques, math6matiques, informatiques originaux ainsi que de concevoir des m6thodes descriptives et typologiques en arch6ologie. 35 527

Transcript of Description des outils (mathematiques, linguistiques et informatiques) impliques par la construction...

Inform. Stor. Retr. Vol. 9, pp. 527-560. Pergamon Press 1973. Printed in Great Britain

DESCRIPTION DES OUTILS (MATHEMATIQUES, LINGUISTIQUES ET INFORMATIQUES) IMPLIQUES PAR LA

CONSTRUCTION D'UNE CHAINE AUTOMATIQUE INTEGREE DE TRAITEMENT DE L'INFORMATION TEXTUELLE ET

GRAPHIQUE

A. BORILLO, M . BORILLO, L. BOURRELLY, E. CHOURAQUI, W. FERNANDEZ DE LA Vt~GA,

A. GUI3NOCHE, A. HESNARD, J. TOGNOTTI et J. VIRBEL

Centre National de la Recherche Scientifique, Unit6 de Recherche Analyse Documentaire et Calcul en Arch6ologie,

31 Chemin Joseph-Aiguier, 13 Marseille 9 °, France

Summary---Given representative samples (about 250) of a corpus of ancient amphorae (from the western Mediterranean) the morphology of which has been registered from photographs and drawings with a pencil follower, the system answers in real time questions asked in natural language about the amphorae shape; this shape is expressed in non-specific and relatively simple terms (long, thick, different) or terms both synthetic and characteristic of the field (type Dressel 1, ovoid, etc.).

Concerning the methodological point of view, the cartesian co-ordinates of the shape are processed through methods of analytical geometry so as to operate an automatic segmentation. The segments obtained are subjected to different taxinomic and statistical algorithms bringing out elements of differentiation at an elementary level. Other kinds of processings but with the same finality are concerned with the global percep- tion of the form. All the cartesian co-ordinates stored are thus provided with a refined and complex structure.

This structure is correlated with the structure of the lexicon representing the scientific discourse related to the morphology of amphorae. At another stage, a syntactic-semantic analysis translates the question in natural language into a "metalanguage" making possible the conversion to the stored analytical information with the help of the lexicon above mentioned. The operation is done in real time.

This work gives the opportunity to solve original problems in linguistics, mathematics and computing science as well as to design descriptive and typological methods in archaeology.

R~sum6---Etant donn6 un 6chantillon repr6sentatif (environ 250) d 'un corpus amphores d'anciennes (de M6diterran6e occidentale) dont la morphologie a 6t6 enregistr6e a partir de photos a l'aide d 'un lectcur de courses, le syst6me r6pond en temps r6el aux questions pos6es en langage naturel au sujet de la forme des amphores; cette forme est exprim6e en termes non-sp6cifiques et relativement simples (long, 6pais, diff6ren0 ou en termes h la lois synth6tiques et caract6ristiques du domaine (type Dressel 1, ovoYde, etc.).

En ce qui concerne le point de vue m6thodologique, les coordonn6es cart6siennes de la forme sont trans- form6es par des m6thodes de g6om6trie analytique de fa~on b. obtenir une segmentation automatique. Les segments obtenus sont soumis h divers algorithmes taxinomiques et statistiques qui font ressortir les 616ments de diff6renciation h un niveau 616mentaire. D'autres sortes de transformations avec la m6me finalit6 con- cement la perception globale de la forme. Toutes les coordonn6es cart6siennes emmagasin6es sont ainsi pourvues d'une structure complexe.

Cette structure est li6e/~ la structure du lexique qui repr6sente le discours scientifique relatif h la morpho- logic des amphores. A tree 6tape diff6rente, une analyse syntactique-s6mantico traduit la question du langage naturel darts un "m6talangage", rendant possible la conversion en donn6es analytiques stok6es ~t l 'aide du lexique d6 jh mentionn6. L'op6ration est men6e en temps r6el.

Cette experience donne l'occasion de r6soudre des probl6mes linguistiques, math6matiques, informatiques originaux ainsi que de concevoir des m6thodes descriptives et typologiques en arch6ologie.

35 527

528 A. BORILLO et al.

1. INTRODUCTION

NOUS exposerons ici les caract6ristiques principales d'un projet de traitement automatique de l ' information relative ~t la morphologie d'un corpus d'amphores antiques de la M6diter- ran6e occidentale. Dans ce syst6me l 'information est enregistr6e au moyen d'un lecteur de courbes (du type Pencil Follower D. Mac), ce qui revient h dire que le contour de l 'amphore, ou celui de la section de l'anse et des 16vres par exemple, sera repr6sent6 par les coordonn6es dans l'espace euclidien h deux dimensions d'un tr6s grand nombre de points de ces contours (tousles 1/10 de mm si l 'on veut). D'autre part les recherches r6trospectives sur cette infor- mation graphique s'ex6cutent/~ partir de questions formul6es dans un langage naturel-- le franqais--~t l'aide des termes m~mes dont font usage les 6rudits. Les conditions dans lesquelles l'exp6rience dolt se d6rouler sont celles du dialogue homme-machine en temps r6el, les questions 6tant 6mises et les r6ponses regues/t l'aide d'une console comrnuniquant directement (on line) avec l'ordinateur.

Les probl6mes ~t r6soudre se pr6sentent d 'abord /t l'int6rieur des deux champs sur lesquels porte l'exp6rience: linguistique, pour construire un langage de repr6sentation qui permette de traduire le contenu des questions en la r6gularisant au delh des variations syntaxiques et lexicales du langage courant et sp6cialis6; analytique, pour substituer h la repr6sentation des formes par accumulation de coordonn6es les 616ments structurels des ensembles de points qui rendent compte de mani~re 6conomique et comparable des 616ments caract6ristiques de tout ou partie des contours, qu'il s'agisse des diff6rentes parties d'un m6me objet ou de la m~me partie consid6r6e sur plusieurs objets.

L'int6gration de ces deux types de donn6es se fair grace h un syst6me complexe de correspondance entre les unit6s du lexique et les 616ments analytiques qui leur sont associ6s, /t quelque niveau que ce soit. L'impl6mentation informatique de ces probl6mes, surtout dans les conditions du travail en temps r6el, exige la raise au point d'un macro-langage de pro- grammation capable de mettre en jeu les diff6rents 616ments du syst6me dans les meilleures conditions de souplesse et d'6conomie.

La particularit6 du syst~me qui sera pr6sent6 ici vient de la diff6rence de support utilis6 pour l'enregistrement et pour la recherche de l'information. Alors que la recherche se fait sur la base du support textuel des interrogations fournies par les utilisateurs, la constitution du stock des donn6es se fait, elle, en dehors de tout discours. Les donn6es, issues de graphiques, sont enregistr6es directement au moyen d'un appareil dit lecteur de courbes. Cette information, on l'a compris, concerne la description d'objets (en l'occurrence des amphores) pour lesquels est pris en compte le contour ext6rieur d'un graphique les repr6sentant, ainsi que la section des anses et de la lbvre. On salt par ailleurs que cette information suffit h fonder le discours classificatoire (typologique) sur la morphologie des amphores. Chaque objet est enregistr6 en m6moire d'ordinateur sous la forme des co- ordonn6es d'un tr~s grand nombre de points pris sur la courbe de son profil.

Ainsi l ' information stock6e existe sous une expression totalement diff6rente de celle de l 'information qui sera v6hicul6e par les questions, c'est-~t-dire de l 'information recherch6e. Ceci explique que les probl6mes ~t r6soudre de part et d'autre ne sont pas de m~me nature : ce sont d'un c6t6 des probl6mes de calcul numdrique, de l'autre des probl~mes linguistiques. Cependant on voudrait montrer que ces deux types de probl6mes ne peuvent pas ~tre r6solus ind6pendamment dans la mesure o~, pour que la correspondance entre les deux formes de donn6es puisse s'6tablir et qu'une r6ponse puisse ~tre fournie aux interrogations, il faut qu'il y air une proc6dure de cheminement possible entre les unit6s du discours des questions, et les fonctions analytiques repr6sentant les points de la courbe.

D6scription des Outils 529

2. TRAITEMENT DES DONNEES GRAPHIQUES

Saisie automatique des donndes

Le lecteur de courbe "Pencil Follower". Cette saisie s'effectue ~t l'aide d'un lecteur de courbe "pencil follower". Cet appareil permet de relever automatiquement sur une courbe, en suivant le trac6 de cette courbe avec un viseur, les coordonn6es d'un certain nombre de points de la courbe. Ces points sont, selon le cas, soit d&erminfs comme les intersections de la courbe avec une grille de pas fix6, soit d6termin6s automatiquement en fonction de la vitesse instantan6e de d6placement du viseur. C'est ce dernier mode d'enregistrement qui a 6t6 retenu.

Mdmorisation des amphores. Une amphore est repr6sent6e par une courbe sym6trique par rapport & un axe; darts le cas g6n6ral, les parties la d~finissant sont"

---le corps compos6 d'un pied, d'une panse, d'un col et d'une l~vre. --les arises.

La reconnaissance globale de ces 616ments est la premi6re 6tape (indispensable) intervenant darts le processus d'analyse math~matique de ces diff6rentes formes. Cette reconnaissance peut 8tre r6alis6e de deux fagons:

--segmentation manuelle: chaque partie de l 'amphore est lue ind6pendamment des autres.

--segmentation automatique: les diff6rents 616ments de l 'amphore sont d~finis automatiquement par programme (utilisation des propri6t6s telles que changement de concavit6, point d'in- flexion . . . . ).

Nous avons opt6 pour une solution interm6diaire dans laquelle la segmentation manuelle concerne les 616ments pour lesquels il est difficile d'imaginer un algorithme de segmentation."

--section de l'anse: la lecture est n6cessairement ind6pendante du reste de la courbe repr6sentant l 'amphore.

----d6tails de la 16vre: les crit~res descriptifs de la l~vre sont tels qu'il est n6cessaire de m6moriser cette zone ~ l'6chelle 1/I.

Finalement au niveau de la saisie des informations une amphore est segment6e en trois parties •

partie 1 : elle est form6e du pied, de la panse, du col, de la 16vre, des anses partie 2: elle est form6e de la section de l'anse partie 3: elle est form6e des d6tails de la 16vre.

La segmentation automatique concerne dans ces conditions les 616ments d6finissant la pattie 1.

Enfin le hombre total de points relev6 pour les trois parties est de l'ordre de six cent.

Options gdndrales eoncernant le passage des donndes brutes aux representations des objets

Une caract6ristique g6n6rale du domaine de la reconnaissance des formes est la diversit~ des probl6mes qui s'y posent et corr61ativement la diversit6 des techniques utilis6es ou utilisables pour leur traitement. On expose ci-apr6s les principales raisons qui ont conduit, pour le probl6me envisag6, au choix de tel type de techniques plut6t que tel autre. A noter que ces raisons reposent sur une premi6re appr6ciation largement intuitive des difficult~s

530 A. BORILLO et al.

r6soudre. Seul le degr6 de succ~s 6ventuel justifiera ce choix /t post6riori ou commandera au contraire une modification de la d6marche.

Un premier facteur essentiel pour ce choix est le statut cognitif du mat6riel envisag6: les amphores ont fait l 'objet de nombreuses 6tudes arch6ologiques, qui, sans avoir encore abouti ~ une v6ritable science des amphores, sugg~rent d6j~t une 6bauche de code descriptif. On a choisi de "coller" dans la mesure du possible ~t cette 6bauche de code ce qui suppose bien sur que l 'on prdcise cette 6bauche de faqon ~ aboutir ~u n v6ritable code pour lequel chaque amphore est d6crite univoquement, ce qui suppose aussi que ce code, initialement d6crit dans le langage naturel, soit traduit dans le langage math6matique, en faisant corres- pondre/ t chaque terme du code une formule analytique, permettant le calcul de la modalit6 du descripteur correspondant, pour chaque amphore. Pourquoi coller ~t un code pr66tabli sans tenir compte apparemment d'aucune contrainterelative h la possibilit6 du calcul ? Cette option est en fait impos6e par l'un des buts de l'6tude : fournir ~t des arch6ologues un instru- ment de travail efficace, et non pas inventer ou reconstruire une science des amphores. I1 n'est pas dans notre propos de digresser sur la possibilit6 d'une telle reconstruction. Obser- vons seulement qu'il s'agirait l~t d'un but beaucoup plus ambitieux, sinon beaucoup moins raisonnable que celui de cette 6tude. Envisageons maintenant les deux principaux types de probl6mes qu'il nous faut r6soudre, ayant choisi cette premibre option de compatibilit6: probl6me de "traduction" du langage naturel en langage mathdmatique puis probl6me de calcul.

La tactique adopt6e pour la "traduction" a consist6 jusqu'ici /t confronter les inter- pr6tations du code par les arch6ologues et par l'6quipe charg6e de cette 6tude. En fait les probl6mes pos6s par cette traduction d6pendent 6videmment des probl6mes de calcul. Ainsi la progression de la recherche s'organise en gros comme suit:

- -une premi6re confrontation permet de ddgager une formulation math6matique aussi simple que possible qui est programm6e.

- - le premier programme est test6 sur des exemples. --les r6sultats du programme sont confront6s avec les rdsultats escompt6s (description

effectu6e par l'arch6ologue). --suivant les r6sultats de cette confrontation on effectue des essais plus complets ou

l 'on modifie d'abord le programme dans un sens ad6quat. - -e tc . . . . En ce qui concerne le calcul, on a choisi d 'abord d'utiliser des caract6ristiques locales du

profil de l 'amphore. Ce choix est command6 par la nature m~me des descripteurs utilis6s par les arch6ologues, qui sont des descripteurs locaux, ou des descripteurs correspondant des "parties" de l 'amphore (lhvre, col, panse, pied) dont la d6termination naturelle se fait 5. l'aide de caract4ristiques locales (pente, convexitY, courbure). Ainsi, l'ensemble des pro- grammes se divise en trois parties:

(1) Programmes de calcul des param&res locaux, sur lesquels s'appuient: (2) Programmes de segmentation (3) Programmes de calcul des descripteurs correspondant ~ chaque partie

Le programme de calcul des param&res locaux calcule, en chaque point I les composantes du vecteur tangent et la courbure pour la courbe obtenue en approchant localement la courbe donn6e par un cercle. Le sens pr6cis du mot localement est fix6 par la donn6e d'un "pas" IP de calcul. Le programme effectue le calcul avec diverses valeurs du pas (IP = l, 2, 3), le choix du pas effectivement utilis6 par la suite pouvant d4pendre de la r6gion de l 'amphore dans laquelle on se trouve.

D6scription des Outils 531

Segmentation des objets

L'un des premiers besoins qui se soit fait sentir ffit celui d 'un proc6d6 automatique, apte ~t distinguer les parties constitutives du corps d'une amphore, les arch6ologues parlant en g6n6ral plus volontiers du pied, dela panse, du coloude la l~vre que de l 'amphore globale, il 6tait indispensable de distinguer trois niveaux sur l'objet s6parant des zones ainsi baptis6es par les sp6cialistes, bien qu'il eut 6t6 possible 6galement de reconnaitre dans certains cas une 6paule ou une rainure; nous nous sommes limit6s ~t ces quatre parties, pour les raisons suivantes:

- -Leur distinction fait appel ~t des crit~res analytiques relativement simples; --Elles sont attest6es pour chaque type; - -D'autres divisions 6ventuelles plus fines pourront ~tre distingu6es ult6rieurement sans

remettre en question ce travail.

De plus, l'existence de ces subdivisions plus raffin6es n'est pas toujours pr6cis6e nominale- ment, mais seulement par des locutions non explicites; une "panse formant couvercle" d6signe la m~me particularit6 qu'une panse termin6e par une 6paule.

Explicitation des fondements de la segmentation arehdologique des amphores. La caract6- risation du profil d'une amphore dans la pratique arch6ologique se fait en d6composant la courbe en diff6rents segments (par exemple la "panse" d'une amphore, les "anses", etc . . . . ), et points ("la s6paration entre l'6paule et le c o l " . . . ) utilis6s fr6quemment dans les descrip- tions des objets. I1 semble donc indispensable de r6pertorier les "localisations" utilis6es dans les descriptions arch6ologiques et de pouvoir les reconnaitre sur tousles objet~.

Les segments sont ceux reconnus par la segmentation empiriquement effectu6e par les arch6ologues. Les points peuvent ~tre des points de s6paration entre deux segments ou des points "remarquables" de la courbe (comme le point de largeur maximum, le point de largeur minimum d'un segment, etc . . . . ). Nous ne traiterons pas ici de ces derniers" le probl~me de leur reconnaissance est diff6rent de celui pos6 par les premiers. En effet, l'inverse de ceux-ci, les points remarquables sont d6finis par une caract6ristique de la courbe en cet endroit. Leur localisation se fait soit par rapport h la totalit6 de la courbe, soit par rapport aux segments et aux points de s6paration entre segments.

Nous supposerons ici que les ambiguit6s de langage naturel relatives h l'appellation de ces localisations sont r6solues, et nous appellerons "parties" les segments, "liaisons" les points.

On reconnalt tout d 'abord sur le profil, le "corps" (G) de l 'amphore sur lequel sont ajout6es les "anses" (A).

Le "corps" est divis6 en quatre grandes parties:

- - l a "base" (B), qui est la partie refermant l 'amphore et sur laquelle elle repose. Cette "base" peut ~tre soit un " fond" (BF), soit un "pied" (BD).

On appelle conventionnellement " fond" la pattie inf6rieure de la "panse" lorsque celle-ci se termine vers le bas sans rupture de courbe.

- - la "pan~e" (P), ou partie qui a pour fonction de contenir. Elle est situ6e au-dessus de la "base".

---le "col" (C) situ6 au-dessus de la "panse" et la referme, il peut ne pas exister (la "base" et la "panse" existent toujours).

- - l a "16vre" (L) ou extr6mit6 sup6rieure du profil: elle existe toujours par convention.

532 A. BORILLO et al.

i .ou. .,o,.oo, ........ J Liaison hau has d~anse Section Col

A~s-. arise Ollll I II Bas IIII III

I / l J / / ! Uai . . . . . I-p . . . .

Sas de ponse

\111 [ . . . .

LlOis°n'~panse-pied ! ~L. ie isogc~te' / fc, ce inferieure du pied 1 1 . , , ' - - "V

Foce infe'rieure

E ×tre_'m i te'T~ /

Face ~Y/ externe ~ /

Liaison exte rne col. I~vre

I Face interne

I Liaison internecol

I Levre

evre

FIG. 1. Segment et points localis6s par la segmentation.

Les "anses", 616ments ajout6s sur le corps, peuvent ne pas exister. Les anses sont d6crites selon deux plans avec le profil du corps; dans un plan vertical passant par leurs points d'attache sur le corps, ou "profil de l 'anse" (A); dans un plan perpendiculaire, ou description de la "section" de l 'anse (AS). Les anses sont toujours sym6triques par rapport b. raxe de l 'amphore, et implant6es verticalement.

Les "points de liaison" sont les emplacements d6finis comme la s6paration entre deux segments. II y a donc un "point de liaison" entre tous les segments decrits ci-dessus. Le probl6me de la segmentation revient donc en fait/k localiser ces points sur la courbe: une fois ceux-ci plac6s, tous les segments sont d6finis.

- -Lia ison "panse-base" (L B/P) Deux cas peuvent se prdsenter:

si la "base" est du type "fond", la d6finition m6me du " fond" implique qu'aucun point ou zone remarquable ne peut &re d6termin6. La liaison dans ce cas est arbitrairement fix6e par une valeur conventionnelle du rapport de la hauteur totale du fond sur la hauteur totale de la panse si la "base" est du type "pied":

D6scription des Outils

Pa rise ~ , kioison L L

Pied L

FIG. 2.

--Liaison "panse-col" (L C/P)

533

La situation est pratiquement semblable g la pr6c6dente; toutefois, dans le cas o~ la liaison est mal d6finie, les crit~res implicitement utilis6s dans les segmentations font inter- venir suffisamment de conditions sur la forme des deux parties, leurs dimensions relatives, etc . . . . , pour qu'il ne soit pas possible de prdsenter en quelques sch6mas tous les cas diff6rents de segmentation. II faut aussi remarquer que le col peut ne pas exister; dans ce cas, la liaison "col-panse" n'existe pas non plus, et la liaison "col-16vre" devient la liaison "panse-l~vre".

c o ' l [

FIG, 3.

etc.

--Liaisons "col-l~vre" (L C/FI, L C/FX) ou "panse-l~vre", si le col n'existe pas. Comme on examine les faces int6rieures et ext6rieures pour les 16vres, on d6crit la liaison

du col et de la face interne de la l~vre (L C/FI) et la liaison du col et de la face externe de la l~vre (L C/FX).

L'emplacement de cette liaison d6pend d'une caract6ristique de la l~vre, /t savoir une "inflexion" 6ventuelle:

L'axe de la l~vre est dans le prolongement du col ou de la panse:

I 2 3

FIo. 4.

534 A. BORILLO et al.

La liaison est alors d6termin6e par le fait que les faces de la 16vre sont ou non dans le prolongement des parois du col. Soit les deux c6tds sont dans le prolongement (I), on fixe conventionnellement la liaison comme pour le cas "fond-panse", par un rapport de hauteur [sauf s'il y a un "accident", moulure, arate, qui la fixe]. Soit une seule face est dans le pro- longement (2); l 'autre est saillante, on fixe la liaison/t l'6paississement de la paroi; de marne que dans le cas No. 3 off les deux patois sont saillantes, une convention fixe l'61argissement maximum de la 16vre, au delft duquel on consid6re qu'elle a une inflexion.

L'axe de la 16vre forme une inflexion avec celui du col, la liaison est alors situ6e en ce point:

FIG. 5.

- -Liaisons "anse-corps" ou "implantations de l 'anse"

On consid6re les deux points off l 'anse s'attache au corps del 'amphore : l '" implantat ion sup6rieure de l 'anse" (TAH) et l '" implantation inf6rieure de l 'anse" (IAB).

Ces points sont ais6ment reconnaissables, et ils sont situ6s sur le corps par rapport aux localisations (ex. : "l ' implantation sup6rieure" de l 'anse se situe sur le col, et l ' implantation inf6rieure ~ la liaison "col-panse") du corps.

Automatisation de la segmentation. D'un point de vue morphologique et en premi6re analyse les deux premiers niveaux correspondent/t deux points d'inflexion sur la courbe et le troisi6me / tune rupture de pente nettement marqu6e; mais la description analytique du contour de l 'amphore que nous avions obtenue nous donnait en g6n6ral plus de deux points off la courbure changeait de signe et des irr6gularit6s dans les composantes horizontales et verticales de la tangente non contr61ables, compte tenu des formes tourment6es de la l~vre et du pied, du changement du pas de calcul et des s6vices du temps sur le contour de l 'objet (6clats manquants, coups divers).

I1 a paru convenable de life l 'amphore ~ partir d 'un point situ6/t la mi-hauteur, qui appartient n6cessairement/~ la panse pour effectuer les segmentations panse pied et panse col, et h partir d 'un point situ6 anx neuf-dixi6mes de la hauteur totale, appartenant toujours au col, pour la recherche du niveau col 16vre.

Pour diminuer l'effet des irr6gularit6s de l 'amphore on a choisi d'utiliser en plus des donndes brutes une moyenne. Cette moyenne est calcul6e sur neuf points, ce chiffre ayant 6t6 retenu apr~s divers essais.

Ddtermination du point de division panse pied

On d6termine, partant du point situ6 ~t mi-hauteur, et se d6plagant vers le bas, le premier point Io pour lequel la moyenne des courbures d6finie ci-dessus est inf6rieure & - 25 radians

D6scription des Outils 535

par m&re. Si cette valeur n'est pas atteinte, on conclut ~ l 'absence de pied. Si Io est situ6 dans la zone pour laquelle IP est 6gal ~t 2 on teste s'il n'existe pas au-del~t dans la mSme zone une suite de dix points ~t courbure positive. Dans le cas contraire, c'est que l 'on a affaire h un accident du type "6clat manquant" et l 'on poursuit l 'analyse du contour h la recherche d 'un nouveau point Io. Ayant d6termin6 un point Io satisfaisant h la condition 6nonc6e, on teste la pr6sence 6ventuelle d 'un anneau auquel cas le point de jonction est le premier des points suivants pour lequel la tangente est verticale (aux impr6cisions pros). S'il n 'y a pas d'anneau le point de division est un point voisin de 10 pour lequel la moyenne de courbure est nulle.

Division panse-col

Le point de division panse-col est d6termin6 d'une fa~on similaire; on part de la mi- hauteur en se d6plagant vers le haut jusqu'au premier point lo oh la moyenne de courbure est inf6rieure ~ - 2 5 radians par rn&re; si l 'on est dans la zone IP = 1, c'est-h-dire dans le dixi6me sup6rieur de l 'amphore, ce point est le point de segmentation; si l 'on est dans la zone IP = 2 on se d6place vers le haut ~t partir de 1o tant que l 'on reste dans la m~me zone pour le pas du calcul (IP = 2) et que la moyenne de courbure continue h d6croitre; ce proc6d6 s'arr~te en un point qui est le point de segmentation; pour cette division, ce seuil est toujours atteint; il existe toujours un col, mSme si sa hauteur est extr~mement r6duite.

Division col-l~vre

Pour la segmentation col-l~vre, on op~re comme suit: on part des neuf-dixi~mes de la hauteur totale et l 'on se d6place vers le haut. Le point de segmentation est le premier point pour lequel la valeur absolue de la courbure est sup6rieure ~t 250 radians par m&re. Ceci permet d'op6rer une division dans les deux cas de jonction des Figs. 8 et 9.

La lecture de ces algorithmes appelle quelques remarques que nous allons essayer de discuter:

---Tout d 'abord, les seuils retenus peuvent sembler arbitraires mais ils se sont impos6s lors des essais effectu6s sur une douzaine d'objets dont nous disposions lors de leur mise au point, et ils se sont av6r6s satisfaisants lorsque nous les avons essay6s ult6rieurement sur d'autres donn6es.

- -Ces cheminements le long du contour tiennent compte de r6alit6s arch6ologiques sur lesquelles nous nous sommes appuy6es. La premi6re de ces r6alit6s est qu'il s'agit de r6cipients~les amphores - -pour lesquels on est assur6 que la l~vre tient moins de un dixi6me de la hauteur totale, et que le niveau m6dian est dans la panse. La seconde est que ces divisions n 'ont pas un sens arch6ologique trbs pr6cis et si les sp6cialistes s'entendent en g6n6ral sur l'existence et la position de ces parties on obtient des dif- f6rences peu significatives mais notables quant au d6coupage manuel de robjet, ce qui laisse une marge dans laquelle notre programme d6cide d'une fagon imp6rative ~t quelques centim~tres pros sans que cela ait une tr6s grosse importance.

Finalement, la justification de cette segmentation r6side dans son acceptation par des arch6ologues et dans le fait qu'elle d6coupe de fa9on identique des objets voisins.

Chacune de ces parties est redivis6e, ~ l 'exception du col. Cette seconde segmentation suit encore l 'usage arch6ologique dans la plupart des cas ; si les "part ies" sont explicitement reconnues par les arch6ologues, les "sous-parties" sont par contre rarement d6sign6es comme telles, mais elles sont implicitement utilis6es dans les descriptions--par exemple, pour la

536 A. BORILLO et al.

"panse", la description n'exprime jamais la division en deux sous-parties, mais dans certains cas on signale "une 6paule" ou bien une panse avec un "haut en forme de couvercle" et une liaison avec le bas de la panse. D'autre part, de nouvelles segmentations des segments initiaux sont souvent indispensables lors de la caract6risation (cf. infra).

A titre d'exemple, voici comment sont interpr6t6es les segmentations plus fines de la base et de la 16vre:

- - les "sous-parties" de la "base".

Si la "base" est du type " fond" (cf. ci-dessus p. 35), on ne la segmente pas. Si elle est du type "pied", c'est-h-dire dans la plupart des cas, on la segmente en deux parties: le "c6t6" (BDC) et la "face inf6rieure" (BDE):

- - - - - - - - - - 5 -

Face infdrieure F[~. 6.

- - les "sous-parties" de la "l~vre".

La 16vre est la seule partie du profil pour laquelle on examine le profil int6rieur de la paroi. On segmente la 16vre en trois sous-parties: la "face externe" (LFX), la "face interne" (LFI} et "l 'extr6mit6" (LFE).

E xt r~mi h~ Extr#mife'

externe~nterne Foce ~ F a c e externe ~ n t e r n e

H co, H

FIG. 7.

erne

Exfr~mit~ Face tCol

I1 est 6vident que la d6signation de ces sous-parties est li6e aux r6gles de segmentation et que les types de liaison entre sous-parties, ou parties et sous-parties sont du mfime ordre que pr6c6demment.

Acquisition de descripteurs de la forme Les op6rations pr61iminaires d'enregistrement et de segmentation ayant 6t6 effectu6es,

les types de traitements que nous avons retenus pour la suite de l'exp6rience sont 6troite- ment li6s ~t la nature des pr6occupations des arch~ologues. Parmi l'6chantillon de questions arch6ologiques dont nous disposions, la plupart d'entre elles se r6f6raient ~ un type ou mettait en relation deux ou plusieurs types. R6pondre ~ la question: "Quelles sont les ressemblances entre les types un et sept de Dressel ?" ou"Donnez-moiles amphores "Dressel 20" qui s 'apparentent aussi au type 28" requiert avant tout une connaissance intrinsbque de ces types, autrement dit, de pouvoir expliciter ce qui fair qu'une amphore est ou n'est pas d 'un type donn6.

D6scription des Outils 537

D6terminer les crit6res qui font qu'un arch~ologue attribue tel objet ~t tel type, tel est le probl6me que nous nous sommes attach6s ~ r6soudre en premier lieu.

Pour ce faire, les outils dont nous avions besoin appartenaient ~ deux cat6gories bien distinctes; la premiere comportait des m6thodes de classification et la seconde des proc6d6s destin6s ~t obtenir de bons descripteurs de la forme, descripteurs caract6ristiques des diver- sit~s pr6sent6es par les objets qui nous 6taient soumis.

En effet, le fichier num6rique fourni par les donn6es du pencil-follower est notoirement trop vaste pour &re enregistr6 dans le calculateur (six cents points d6termin6s par leur abscisse et leur ordonn6e au dixi6me de millim&re, pour deux cent cinquante ~ trois cents amphores) et l 'information qu'il contient n'a que peu de sens arch6ologique m~me si elle figure l'objet d'une fa~on quasi-parfaite. II nous fallait donc d'une part la r6sumer, d'autre part l'interpr6ter de fagon ~ fournir des coefficients qui repr6sentent l'objet aux yeux des arch~ologues.

Descripteurs globaux. Les descripteurs envisag6s jusqu'~ pr6sent sont de trois sortes:

- -Une s61ection de points, ~t niveau 6quidistant sur la verticale.

- -Deux approximations des courbes de profil, l'une par des polynomes orthogonaux, l 'autre par des polygones inscrits (base de Schauder).

- -Des rapports de mesures prises sur l'objet.

Les deux premiers types de descripteurs envisag6s n'appellent pas de remarques particu- li~res. C'est le troisi6me type de descripteurs qui nous a sembl6 le plus utile eu 6gard ~ la vis6e finale du traitement. Ces rapports offrent en effet l'avantage de poss6der une signi- fication arch6ologique immfidiate et pr6cise.

Nous nous sommes limit6s ~ sept coefficients qui donnent un encadrement satisfaisant de l 'amphore; ils sont dans le cas le plus g6n6ral compris entre 0 et 1.

II s'agit de la largeur maximale du fond sur la hauteur du fond, de la hauteur du fond, de la largeur maximale de la panse, de la hauteur du bas de panse, de la hauteur du col, rapport6 ~ la hauteur de la panse, de la hauteur de la l~vre sur la hauteur du col, de la hauteur de la l~vre sur la largeur et de la hauteur de la panse sur la hauteur totale.

Ces descripteurs globaux sont essentiellement destin6s ~ permettre de reconnaitre des types d'amphores par application d'un programme de classification, ce mot &ant entendu dans le sens de l'affectation des amphores h des classes pr6d6termin6es. Ce programme utilise la m6thode du maximum de vraisemblance et le mod61e normal pour les distributions des valeurs des descripteurs ~t l'int6rieur de chaque classe.

Descripteurs locaux. Il s'agit ici de d6terminer automatiquement, pour chaque amphore et pour chacun des segments des descripteurs d6finis caract6risant la courbe. Deux tech- niques ont 6t6 envisag6es, dont la raise en ~uvre est en cours:

---le calcul direct ~t partir d'une interpr6tation g6om6trique lorsque celle-ci est relative- ment simple. Par exemple soit un descripteur dont les modalit6s sont: plat, 16g~rement courb6, trbs courb6. Ce descripteur peut ~tre d6termin6 en calculant un rayon de courbure et en comparant ce rayon ~ des seuils fix6s ~ l'avance.

-~le calcul indirect, effectu6 par exemple pour un descripteur dichotomique, consiste essayer de d~finir la partition correspondant ~ ce descripteur dans un espace de descripteurs fondamentaux, par un plan. Si un tel plan existe on salt le d6terminer, et

538 A. BORILLO et al.

la modalit6 du descripteur que l 'on veut calculer sera, pour une amphore donn6e, d6termin6e par le signe de la valeur obtenue en portant les valeurs des modalit6s des descripteurs fondamentaux dans l'6quation de ce plan. On r6duit toutes les valeurs que peut prendre la forme d'une courbe ~t trois valeurs: elle est "convexe", "droi te" ou "concave", par rapport ~ l'axe de l 'amphore; si un segment comporte deux courbes consfcutives, on d6crit sa forme par combinaison des trois valeurs possibles pour chaque courbe. Si le segment comporte plus de deux courbes cons6cutives, on signale seulement ee fair, sans pr6ciser la valeur de chacune. Enfin une valeur est utilis6e pour signaler des 616ments "pointus".

Ces valeurs sont les suivantes:

"convexe" (x) "droi t" (d) "concave" (v) "droit-convexe" (dx) "droit-concave" (dr)

"convexe-concave" (xv) "convexe-droit" (xd) "concave-convexe" (vx) "courbe complexe" (w) "pointu" (y)

(, i /

I L I

"xv (/)

t l i i

I~V X "

I

i "W "

( I

I I l W V

JniquQm@nt pour Icl"bcl~"

FIG. 8. Valeurs de la forme. La lecture s 'effeetue de bas en haut , et l 'axe de r6f6rence des objets est h droite sur la figure.

Pour les points de liaison (Fig. 9), ces valeurs caract6risent la fagon dont deux segments se relient: il s'agit plut6t que de "points" de zones de la courbe tr~s restreintes (dont la dimen- sion est n6gligeable par rapport ~t celle des segments). Soit le passage d'un segment/t un autre se fait sans "accident", il s'agit alors d'une liaison dite "continue"; soit il se fait l 'emplacement d 'un accident, il s'agit d'une liaison "discontinue" et on d6crit alors la forme de l'accident.

D6scription des Outils 539

~Z N i

qx

(-i i/i o j l, (-i k I

J I

I i i

"z~

I I .... qv

J I I I "z~

i I j "b"

J

I J J

Uniquemerrt pour LAH,~

/oleurs de la form° uniquement pour la lioi~on col-levre

FIG. 9. Valeurs de la "forme" pour les points de liaison.

Ces valeurs sont les suivantes: liaison "continue" (c) liaison "discontinue" (a) liaison "discontinue"--"~ angle aigu" (ah) liaison "discontinue"--"/~ angle obtus" (ak) liaison "discontinue"--",~t ressaut divergent" (z,) liaison "discontinue"--"/t ressaut convergent" (Zo) liaison "discontinue"--"/t double ressaut divergent--convergent" (zn) liaison "discontinue"--"~t moulure en relief" (q~) liaison "discontinue"--"/t moulure en creux" (qv) liaison "discontinue"--"~t bec" (b)

La d6marche 6voqu6e ici ~t propos de la forme proprement dite des segments (parties) de la courbe est aussi suivie en ce qui concerne la caract6risation des sous-parties, ainsi que par ailleurs pour la caract6risation de propri6t6s autres que la forme (inclinaison, inflexions

Nil"

"12"

'13"

® "14"

"15"

6

FIG. 10. Valeurs de la "forme" pour la section de ranse.

540 A. BORILLO et aL

de la 16vre, dimensions, etc). C'est ainsi que 1'on d6finit par exemple pour l'inclinaison les descripteurs suivants:

---convergent (o) --divergent (i) --parall61e (u)

ou pour des dimensions:

- -hauteur (h) -- largeur maximum (lm)

etc.

3. TRAITEMENT DES QUESTIONS EN LANGAGE NATUREL

Ndcessitd du langage de reprdsentation

Toute demande d'information exprim6e en langage naturel doit &re reformul6e dans les termes d'un langage qu'une r6gularisation de forme et de sens permet de soumettre aux diverses manipulations effectu6es pour la recherche. La fonction d'un tel langage est en g~n6ral double. D'une part il doit permettre d'expliciter les choix ~ faire concernant la repr6sentation du champ d'exp6rience tant du point de vue notionnel que relationnel; dans notre cas par exemple il faut ramener la phras6ologie relative ~ la morphologie des amphores

un ensemble de concepts et de relations logiques susceptibles de correspondre ~t l'ensemble des variations que peut manifester la forme de l'objet amphore et ceci de mani6re univoque. D'autre part cet ensemble de concepts et de relations univoques doivent &re choisis en fonction des op6rations de traitement sur les donn6es, dans notre cas, en fonction des r6sultats structurels que le calcul num6rique est en mesure de faire apparaitre sur les repr6sentations graphiques des objets enregistr6s. En effet ce m6talangage ou langage de repr6sentation constitue ~t la fois la cible vis6e ~t partir de la formulation des questions et le point de d6part de la recherche sur les donn6es analytiques enregistr6es. II doit jouer ce r61e de pivot afin que puissent s'6tablir des correspondances entre les unit6s linguistiques et les 616ments analytiques qui leur sont associ6s.

C'est pourquoi l'emploi du langage naturel dans la formulation des questions s'av~re tout ~t fait inad6quat. I1 n'est pas besoin de s'6tendre sur les ph6nom6nes linguistiques connus tels que redondances, synonymies, p6riphrases ou au contraire ellipses, r6ductions, anaphores, polys6mies etc. pour comprendre qu'ils constituent des impropri6t6s lorsqu'il s'agit des contraintes de la manipulation automatique. Ces impropri6t6s sont de types assez diff6rents ; certaines repr6sentent des diversifications propres h la langue: constructions syntaxiques pouvant ~tre ramen6es ~t une m~me structure logique, possibilit6s de lexicalisations dif- f6rentes ~t partir d'un m~me concept ou au contraire cas d'homographies; d'autres au con- traire concernent la terminologie propre au champ &exploration consid6r6 parce que les m6mes termes ou expressions s'emploient avec des acceptions diff6rentes suivant les auteurs ou les 6coles (ce qui se produit souvent dans les domaines pour lesquels il n'existe pas encore une connaissance scientifique suffisante). De plus, dans une terminologie pr6cise, un m~me mot peut changer de sens selon le groupe stylistique auquel appartient l'objet 6voqu6, ou encore, pour un m~me objet, selon la partie ~ laquelle il s'applique. Darts ce cas il s'agit de polys6mie de termes sp6cialis6s, plus difficile ~t d6finir et "~ r6soudre, parce qu'on ne peut la traiter qu'au regard de la totalit6 graphique ~t laquelle chacun des termes est cens6 correspondre. Par exemple, alors qu'elles sont dites toutes deux "convexes", la con-

D6scription des Outils 541

vexit6 de la panse d'une amphore de type Dressel 23 est, analytiquement, tout ~t fait dif- f6rente de la convexit6 de la panse d'une amphore de type Lamboglia II.

Si les interrogations sont faites en langage naturel il est donc n6cessaire, pour que l 'on puisse travailler sur une repr6sentation univoque de leur signification, d'effectuer une traduction qui remplit ~t la lois la fonction de r6gularisation et celle d'interpr6tation. Cette traduction, comme on vient de le voir, implique d'une part la d6finition d'un langage de repr6sentation (§ 2), d'autre part les op6rations et les outils n6cessaires au passage dans ce langage (§ 2).

Le langage de repr6sentation qui a 6t6 61abor6 pour le syst~me se compose comme tout langage d'un ensemble d'unit6s lexicales et de relations entre ces unit6s.

Le vocabulaire comprend l'ensemble des concepts n6cessaires pour exprimer le contenu du domaine consid6r6. I1 a 6t6 pour la plus grande partie construit A partir du d6pouillement de la litt6rature sp6cialis6e existant sur les amphores (articles, comptes rendus, mono- graphics), mais 6galement par l'analyse d'un corpus de questions b~tties par des arch6ologues et capables d'exprimer ce que pourraient ~tre leurs demandes; ceci afin de se mettre dans les conditions de l'exp6rience, de faire apparaltre la phras6ologie habituelle en ce qui concerne ce champ pr6cis d'exploration et de mettre en 6vidence les th~mes principaux de la recherche, les 616ments qui par leur fr6quence ou leur rf le central dans les questions se r6v~lent importants dans la description et dans la classification des objets.

En plus du vocabulaire g6n6ral utilis6 dans la formulation des questions et que l 'on trouve consign6 dans le dictionnaire automatique, on recueille 6galement le vocabulaire sp6cialis6 se rapportant directement au domaine pr6cis 6tudi6, la morphologie des amphores. Ce vocabulaire est recens6 et par l'interm6diaire du dictionnaire automatique vers6 dans des classes s6mantiques choisies pour repr6senter la r6alit6 conceptuelle du champ 6tudi6.

Ainsi la d6finition de ce vocabulaire sp6cialis6 s'effectue sur deux plans •

(a) sur le plan paradigmatique par l'affectation de tousles termes sp6cialis6s ~t une classe sdmantique d6termin6e, par l'interm6diaire du dictionnaire m~me.

(b) sur le plan relationnel par les liens qu'entretiennent les classes s6mantiques les unes par rapport aux autres. Cette deuxi~me d6finition, cons6quence implicite de la premiere (l'appartenance/~ une classe s6mantique) est explicit6e par la construction d'un r6seau lexical. Enregistr6 ind6pendamment dans l'ordinateur, ce r6seau indique suivant la classe s6mantique auquel un terme appartient, ses relations possibles avec d'autres classes de termes.

Nous appellerons "schdma des relations entre classes sdmantiques" l 'organisation ainsi d6finie. Nous entendons ainsi r6server le terme de "lexique" h son emploi propre: celui d 'un syst~me relationnel d6fini entre les descripteurs eux-m~mes et non, r6p6tons-le, entre leurs classes.

Les classes sdmantiques Les termes sp6cialis6s du langage naturel sont vers6s soit dans des classes qui se rappor-

tent A l 'objet-- l 'amphore--ou h ses parties composantes, soit dans des classes qui se rap- portent ~t des propri6t6s morphologiques concernant l'objet et ses diverses parties. Nous prenons cette premi6re distinction comme base de description des diff~rentes classes mais nous verrons que l'organisation des relations entre ces classes ne refl&e pas n6eessairement cette dichotomie (§ 2).

Par ailleurs on distingue par rapport aux classes ainsi d6gag6es un certain hombre de sous-classes dont le statut se d6finit sur la base de liens de d6pendance d'une nature pr6cise.

542 A. BORILLO et al.

(a) Les classes de termes se rapportant aux amphores et gt leurs parties

1--Classe 1. Elle contient les termes d6signant l 'objet consid6r6 dans son ensemble. En f a r un seul terme est suffisant dans notre cas pnisqu'il s'agit d 'un corpus d 'un seul type d'objet, ~t d6nomination unique, les "amphores".

2--Classe 2. Cette classe comprend les termes qui d6signent des segments d6coup6s sur le trac6 du profil de l 'amphore: "panse", "pied", "col" etc . . . . Parmi ces parties certaines sont obligatoires: "panse", d'autres peuvent manquer: "'pied", "'anse", ou prendre des emplacements diff6rents: "anse". Ceci n'est pas pris en compte pour l'affectation ~t la classe 2.

3--Classe 4. Darts cette classe sont vers6s les termes qui d6signent des motifs ou des ornements dont la pr6sence entra~ne une modification du trac6 du profil de l 'amphore, soit en relief: "bandeau", "bourrelet" etc . . . . soit en creux: "strie", "'rainure" etc . . . . Ces 616ments pourraient ~tre assimil6s ~ des parties de l 'amphore (classe 2); en effet du point de rue de la segmentation du profil, ils sont reconnus exactement de la m~me mani6re, par un changement de l 'orientation de ta courbe ou m~me par une brisure. Leur caract6re non obligatoire et non fixe sur le profil ne serait pas un obstacle ~t cette classification puisque certaines parties, on l 'a vu, ont ~galement l 'une ou l 'autre de ces particularit6s. Cependant du point de vue de la description de l'objet, la pr6sentation qu'en font les arch6ologues est tout ~ fait particuli6re. En effet ~ travers l 'emploi qui est fait de ces termes dans les descrip- tions d 'amphores dans la litt6rature on peut noter qu'ils sont tant6t consid6r6s comme de simples motifs: "amphores ~ bandeaux", "un eol ornd d'un bandeau" tant6t mentionn6s comme 616ments de s6paration ou de jonction de parties :

"le col et la panse sont relids par un bandeau" "'un bandeau marque la s~paration entre le col et la panse"

Etant donn6 ce r61e particulier que ne jouent pas les autres d6signations de parties il a 6t6 jug6 pr6f6rable d'isoler l 'ensemble des termes d6signant des motifs ou des ornements et d 'en faire une classe distincte afin de pouvoir leur r6server un traitement diff6rent si n6cessaire.

(b) Les classes des termes ddsignant des propridt& morphologiques

Les termes qui d6signent des propri6t6s sont vers6s dans cinq grandes classes. Les propri6t6s envisag6es ici sont 6videmment les propri6t6s morphologiques utiles pour la caract6risation des amphores darts le cadre de l'~tude descriptive d6finie, qui comme on le sait ne porte que sur deux dimensions. I1 ne peut donc ~tre question ici de volume, de pro- fondeur, de contenance, etc . . . .

1--Classe 3. ( la forme): cette classe comprend d'une part des termes pr6cis et stables comme "cireulaire", "eonvexe", "concave" etc . . . . pour lesquels il n'est pas n6cessaire de pr6ciser l'616ment auquel se rapporte cette qualification pour que le sens soit d6fini. Qu'il s'agisse du pied, du col ou de la panse "eonvexe" gardera toujours la meme d6finition par rapport h la r6alit~ graphique c'est-~-dire aux fonctions analytiques des points cens6s repr6- senter une courbe convexe. Mais par ailleurs sont vers6s 6galement dans cette classe 3 des termes dont la valeur s6mantique--toujours par rapport ~. la r6alit6 graphique--varie suivant l'616ment auquel la propri6t6 s'applique. Si l 'on parle d'une "panse aplatie" et d 'un "pied aplati", le trac6 de courbe auquel se r6f~re implicitement le terme "aplat i" dans chacun des deux cas a une r6alit6 tout ~t fair diff6rente. II n'est pas important pour le sch6ma des relations entre classes de savoir qu 'un terme comme "aplat i" prendra des traductions

D6scription des Outils 543

diff6rentes suivant des parties qu'il qualifie. I1 suffit de conna]tre son affectation ~t une classe et de ce fait pouvoir lui appliquer un certain type de mise en relation.

2--Classe 5. ( la dimension): tousles termes qui par rapport au graphique d6signent des segments ou des distances sur lesquels peuvent s'effectuer des mesures sont enregistr6s dans cette class 5, "largeur", "diamOtre" etc . . . . Ces descripteurs ne sont pas ambigus comme peuvent l '&re certains de ceux qui qualifient des formes (classe 3) mais il est/t noter que tous les termes de dimension ne se r6f~rent pas aux m~mes coordonn6es pour les diff6rentes par- ties de l 'objet: "dpaisseur" par exemple signifie "hauteur" (mesure prise sur l 'axe vertical) lorsqu'il s'agit de la 16vre tandis qu'il signifie "largeur" (mesure prise sur l 'axe horizontal) lorsqu'il s'agit d'une anse.

3--Classe 6. ( la topographie) : cette classe contient les termes qui apportent des sp6cifica- tions spatiales sur l 'amphore (classe 1), sur les parties (classe 2) ou sur les motifs (classe 4); "le haut de l 'amphore" , "le bas de la panse", "'le bord du bandeau" etc . . . . Ces sp6cifica- tions concernent toujours le trac6 du profil de l 'amphore et peuvent &re mises en corres- pondance avec des partitions sur chacun des segments correspondant aux termes des classes 1, 2 et 4 dont elles constituent en quelque sorte des subdivisions.

Ces termes ne s 'employant jamais seuls on aurait pu en faire des sous-classes de 1, de 2 et de 3, mais &ant donn6 qu'ils peuvent s 'employer indiff6remment avec ces trois classes, on a jug6 pr6f6rable de ne pas les consid6rer comme des sous-cat6gories dont il aurait fallu d6finir la triple ddpendance mais au contraire de les r6unir dans une classe unique que l 'on a appel6e "topographie". D'autre part, bien que cette classe soit form6e de termes qui se rapportent directement ~t la segmentation de l 'amphore, on ne peut la consid6rer comme une classe autonome. Puisque chaque terme de cette classe marque une sp6cification ayant trait au trac6 (le haut de l 'amphore) ou h des segments de ce trac6 (le bas de la panse) on a choisi de la considdrer avec les autres comme une classe de propri6t6 se rapportant ~t la caract6risation morphologique.

4 Classe 7. (l'inclinaison): cette propri6t6 diff6rente des deux premieres se traduit essentiellement par des mesures d'angles. Par rapport aux deux axes--vertical et horizontal - -qu i servent de base ~t la description de l 'amphore et de ses parties ou de ses motifs, on 6value la position de certains points ou de certains segments; par exemple l'inclinaison du bord des anses par rapport h la ligne du col dont le trac6 est lui-mame d6fini/t partir de l 'axe vertical de l 'amphore.

5--Classe 8. (la localisation): les termes qui se r6f6rent / tune position dans l 'espace entrent dans cette classe. Ils sont assez peu nombreux dans notre &ude dans la mesure off l 'espace se rdduit ~t deux dimensions. Cependant h des notions comme "vertical", "hori- zontal" il faut ajouter les notions "'intgrieur", "'extgrieur" &ant donn6 la diff6rence de statut donn6 ~ l'espace consid6r6/t partir du trac6 du profil de l 'amphore.

(c) Les sous-classes de ddtermination quantitative et qualificative

Les termes vers6s dans les grandes classes ci-dessus peuvent ne pas suffire pour la description s'ils ne d6signent pas avec suffisamment de finesse et de pr6cision les carac- t6ristiques de l 'amphore: son type, la segmentation faite sur son contour, les propri&6s morphologiques attach6es/t cette segmentation, etc . . . . Tr6s souvent donc les termes du vocabulaire sp6cialis6 doivent &re pr6cis6s par des d&erminants. Ces d6terminants varient selon la classe des termes auxquels ils s'appliquent, par exemple une sp6cification sur la dimension s 'exprimera par des quantit6s chiffr6es tandis qu'une sp6cification sur la forme ne

36

544 A. BORILLO et al.

pourra se faire que par des quantifications approximatives: "~ peu pros rond", "'ldg~rement arrondi", "trOs pointu", etc . . . . D'autres caract6risations ne font pas intervenir de quanti- fication mais introduisent des pr6cisions diverses : sur le type "amphore Dressel 5", sur le d6coupage: "l'attache de l 'anse", "'l'embouchure du col" etc . . . . Du fait de ces diff6rences il n 'a pas 6t6 possible de verser toutes les unit6s n6cessaires ~k la sp6cification de la termino- logie dans une m~me classe que l 'on aurait pu appeler "classe des d6terminants", il a fallu 6tablir nne classification de ees termes en fonction du type de la classe s6mantique fl laquelle ils peuvent s'appliquer. Ces sous-classes ne seront pas d6taill6es ici.

Le schdma d'organisation des classes sdmantiques: les relations statiques

L'organisation de l'ensemble des classes s6mantiques d6crites au § 2 est fournie par un syst6me de relations appel6es "statiques". Du fait de leur nature et de leur fonction ces relations assurent la structuration du champ scientifique soumis fl l'6tude. Elles rendent compte implicitement de l'6tat du savoir dans le domaine au moment m~me o4 sont 61abor6s les m6thodes et les algorithmes de description. Ces relations statiques font partie des donn6es, elles sont enregistr6es en tant que telles au m6me titre que le vocabulaire soumis au traitement classificatoire que nous venons de pr6senter.

Les relations statiques qui introduisent une organisation dans l 'ensemble des classes s6mantiques d6gag6es, trouvent leur d6finition dans la nature mSme de ces classes. Ainsi entre l 'amphore et ses parties s'6tablit une relation d'inclusion, entre une partie et une pro- pri6t6 morphologique s'6tablit la relation qui d6signe le type de cette propri6t6. Par exemple la relation d'inclusion, d6sign6e par ATRI, et la relation de forme, d6sign6e par FORM, constituent avec les classes s6mantiques 1 et 2, 2 et 3 respectivement, des triplets du type:

1 2 ATRI 2 3 F O R M

Des syntagmes du langage naturel, "une panse ovale", "'un col effild", "une anse ronde" pourront fl partir de ce mod61e ~tre repr6sent6s par:

panse ovale F O R M col effil6 FORM anse ronde F O R M

Ceci est possible car dans chacun de ces syntagmes le premier terme appartient fl la classe 2, le deuxi~me fl la classe 3. Nous ne parlerons pas ici des r6gles qui donnent le droit d'associer ces deux termes dans un syntagme oudans une phase; ces r6gles sont 61abor6es par les outils d'analyse syntaxique, schemas syntaxiques et tables associatives, qui ont ~t6 pr6sent6s dans un pr6c6dent rapport (cf. rapport CNRS/39/1972) et qui seront d6taill6s ult6rieurement. Ce que nous donnons ici c'est l 'interpr6tation dans le langage-pivot de cette mise en relation, la forme sous laquelle elle doit ~tre repr6sent6e dans une premi6re 6tape (Repr6sentation I). Si l 'on parle de premibre 6tape, c'est qu'fl ce point, le mod6le de repr6sentation 6tant fourni, les unit6s lexicales n 'ont pas encore subi de traitement. Les termes sont affect6s fl des classes mais leur signification propre n'est pas encore d6gag6e, ils n 'ont pas 6t6 traduits dans le langage-pivot. Cette traduction n'est pas possible fl ce stade car certains termes, en particulier ceux qui sp6cifient une forme, ne peuvent prendre une signification propre sans application explicite fl une partie de l 'amphore pr6cis6e. Si nous reprenons l'exemple de "'arrondi", ce terme ne peut ~tre interpr6t6 par rapport ~ la r6alit6 graphique de la m~me mani6re s'il s'agit d'une "panse arrondie" et d 'un "'angle arrondi". La traduction ne peut se faire si les raises en relation ne sont pas effectives. La repr6sentation I qui t6moigne de ces

D6scription des Outils 545

mises en relation doit obligatoirement subir un traitement s6mantique qui permet de d6boucher directement sur les calculs. Dans cette 6tape nous nous contenterons de parler de "arrondi'" sachant que dans une 6tape ult6rieure l'analyse doit passer par un traitement particulier de "arrondi 1", "arrondi 2" etc . . . . suivant les unit6s lexicales auxquelles cette caract6risation de forme se rapporte.

L'ensemble des relations statiques d6finies par la nature des classes s6mantiques d6gag6es pour la description morphologique des amphores forment une organisation de type multi- dimensionnel. 11 serait assez difficile d'en donner le diagramme comme il est coutume de le faire lorsqu'il s'agit d'une organisation en arborescence. Dans notre cas la relation d'inclu- sion qui assure tr~s souvent la structure hi6rarchique des lexiques n'est qu'une des multiples relations du syst6me. Cependant on peut donner un plan g6n6ral du sch6ma selon lequel s'articulent les classes.

TABLEAU 1. SCHEMA D~ORGANISATION DES CLASSES

classe s6mantique

2 3 4 5 6 7 8

1 ATRI FORM ATRI DIME TOPO - -

2 LOCA FORM ATRI DIME TOPO INCL LOCA LIAI

4 LOCA FORM LOCA DIME TOPO INCL LOCA

Les relations entre classes sont au nombre de 7:

A T R I - - " p a r t i e " (relation d'inclusion) F O R M - - " f o r m e " D I M E ~ " d i m e n s i o n " TOPO--" topograph ie" INCL~" inc l ina i son" LOCA---"localisation" LIAI- -" l i a i son" (s6paration ou jonction)

Par ailleurs, comme il a 6t6 indiqu6, certaines classes s6mantiques doivent--ou peuvent--~tre mises en relation avec des sous-classes qui les sp6cifient. Elles ne seront pas d6taill6es ici.

Rdgularisation de l'expression de contenu

Cette r6gularisation consiste ~t exprimer le contenu de termes des classes s6mantiques, ou, le plus souvent, de syntagmes faisant intervenir une relation statique (cf. ci-dessus, § 2) vis4t-vis des descripteurs calcul6s automatiquement (cf. I, § 3).

Relativement ~ cette op6ration de traduction, les termes du langage naturel ont des statuts diversifi6s.

Certains sont des 6quivalents exacts des termes du code; ex. : CONVEXE, PARALLELE, DROIT, RESSAUT, D I V E R G E N T . . . .

Cette repr6sentation est precise et r6guli~re: quel que soit le contexte dans lequel le terme ou l'expression est employ6, sa valeur s6mantique est invariante.

546 A. BORILLO et al.

Pour d'autres, la valeur sOmantique d6pend toujours de la "localisation"/t laquelle ils s'appliquent: il faut donc repr6senter non pas "OVALE" mais "PANSE OVALE", "ANSE OVALE", etc . . . . . c'est-~t-dire en fait, traduire un syntagme du langage de repr6sentation.

D'autre part, les termes faisant r6f6renee /t des figures g6omOtriques dOfinies ( "SPHERIQUE", CYLINDRIQUE" . . .) ont une repr6sentation relativement stable: la figure de r6fOrence (une sphere, un cylindre) est g6om6triquement dOfinie, les objets qualifi6s doivent donc remplir certaines conditions, contenues dans la d6finition g6omOtrique; mais d'autres termes, faisant r&~rence par m6taphore ~t un objet eoncret ( - -"une panse en forme de poire", "une l~vre en forme de ealice" etc . . . . ), ont un rOf6rent (une poire, un calice) non d6fini g6omOtriquement eomme pr6c6demment; cependant l'image 6voqu6e par le terme ne varie pas d'un observateur/t l'autre. I1 s'agit d'une comparaison entre des amphores et un objet:

Soit la comparaison se fait entre l'ensemble des amphores connues par l 'observateur et l 'objet: "les amphores/~ panse piriforme"; le sens de "P IRIFORME" est alors : les amphores qui ont des panses ressemblant/t une poire.

Soit elle se fait entre un groupe restreint d'amphores et l 'objet: "les amphores Dressel 7-11 /~ panse piriforme"; le sens de "P IRIFORME" est dans ce cas : parmi les amphores qui sont classOes dans le groupe des amphores Dressel 7 /t Dressel 11, celles qui ont des panses ressemblant h une poire. On distingue ces deux cas car la reprdsentation du terme diff6re de Fun/~ l'autre (cf. ci-dessous).

D'autres termes enfin sont plus difficiles/~ exprimer : ceux qui ne font pas r6f6rence ~ des objets ou images, mais qui en fait ont un sens relatif: l'expression "une grande amphore" n'a pas un sens intrins6que, die ne prend un sens que par comparaison ~ d'autres ampilores; leur sens est compl~tement lid/t la connaissance des objets qu' a l'observateur.

Les descripteurs pr6c6demment d6finis (ci-dessus, I, § 3) permettent d'exprimer le contenu des termes ou expressions du langage naturel traduit dans ceux du langage de repr6sentation, et done d'6tablir un pont entre les valeurs num6riques calculdes lors du traitement des donn6es graphiques et les expressions du langage naturel utilis6 par les archdologues.

Ainsi par exemple, le terme "cylindrique", appliqu6 ~t une amphore--ce qui correspond par cons6quent dans le langage de repr6sentation au syntagme

CYLINDRIQUE AMPHORE/FORM

a la representation suivante: PB.h > 5PH.h, et PB.xd , et PB.u,

ce qui signifie, en reprenant la d6finition donnde pour chaque descriptcur (I, § 3), que "cylindrique" ~ propos d'une amphore ddsigne globalement ce complexe de propri6t6s analytique:

- - la "hauteur" de la partie "bas de panse" est 5 fois plus grande que la "hauteur" de la pattie "haut de panse";

- - la partie "bas de panse" est "convexe-droite" - - la partie "bas de panse" est "parallble" ~ l'axe.

En revanche, "cylindrique" /t propos d'un col d'amphore, soit l'expression CYLIN- DRIQUE COL/FORM, se traduit par: C.d et C.u, soit: un col "cylindrique" est "droi t" et "parall61e" 5 l'axe.

D6scription des Outils 547

Le systOme des relations dynamiques

I1 existe un deuxi6me type d'articulation des termes du vocabulaire sp6cialis6 concernant la morphologie des amphores, assur6 par un syst~me de relations dites "dynamiques". A l'inverse des relations statiques ces relations ne sont pas fix6es ~t l'avanee dans une organisation quelconque des termes du vocabulaire. Alors que les relations statiques servent

d6finir les caract6ristiques morphologiques des amphores, les relations dynamiques permettent d'exprimer des rapports que l 'on 6tablit entre ces amphores, dans leur ensemble ou dans leurs parties, du fait m~me de leurs caract6ristiques morphologiques. Ces relations ne sont plus l'expression d'un savoir mais d'une recherche sur le domaine, l'un des buts de la recherche 6tant la mise en correspondance des descriptions afin d'obtenir une discrimination sur les objets et de 1~ tenter d'6tablir une typologie possible.

Ces relations dynamiques sont essentiellement de type comparatif mais les comparaisons qu'elles mettent en jeu peuvent ~tre de nature vari6e.

(a) Des variations concernant la constitution morphologique d'un objet. Du fait que l'on s'attache h des rapports d6termin6s par les caract6ristiques physiques d'un seul objet, on pourrait d6cider d'inclure dans le lexique les propri6t6s que ces rapports d6finissent (amphore "plus large que haute", par exemple); mais 6tant donn6 que dans ce cas l 'information est le produit de comparaison portant sur des mesures, il est difficile d'inclure dans le lexique d'une mani6re exhaustive tousles rapports possibles entre les dimensions des diverses parties de l'objet. On a done pr6f6r6 consid6rer ce type de variation comme une raise en relation "ouverte". D'autant plus qu'appara~t lh une fagon de mettre en 6vidence la coh6rence et le bien fond6 de caract6risations lexicales qui traduisent ces mises en rapport de mani6re synth6tique. S'appliquant au col, par exemple, le terme "6vas6" rend compte d'un certain type de variation de l'une des dimensions du col, la largeur, par rapport A l'autre, la hauteur. La question: "Est-ce que telle amphore a un col dvasd?" revient h demander: "Est-ce que telle amphore a un col dont la partie sup~rieure est plus large que la partie inf~rieure ?" La recherche pour les deux questions sera de m~me nature, elles portera sur le m~me rapport. Mais dans le langage de repr6sentation les deux questions seront traduites de mani~re diff6rente. Pour la premibre question une re la t ion /FORM/sera enregistr6e: [col] /FORM] [6vas6], tandis qu'une relation de comparaison de d imension/CODIM/sera introduite par l 'automate pour la deuxi6me question: [haut de col ] /CODIM/[has de col].

(b) Des variations eoneernant les donndes morphologiques de plusieurs objets. Ce sont ces variations morphologiques qui fondent des ressemblances ou des diff6rences classificatoires entre des objets ou des groupes d'objets. Ces variations peuvent concerner la forme, les dimensions ou la localisation de motifs et de parties dont l'emplacement n'est pas fixe (les anses par exemple). Du point de vue de la consultation des donn6es en m6moire, il apparait que les recherches d'information se rambnent dans la plupart des cas ~ l'6tat de trac6 de courbes,/~ des mesures de dimensions ou au calcul de rapports entre ces dimensions (le seul cas diff6rent est peut-~tre celui oi~ l'interrogation porte sur la pr6sence ou l'absence d'un 616ment constitutif de l'objet, o/l se pose seulement le probl6me de la segmentation). I1 semblerait par cons6quent qu'un faible nombre de relations suffisent h exprimer la com- plexitfi du champ explor& I1 n'en est rien, car du point de vue linguistique ces diff6rences ont de l 'importance; elles sont refl6t6es dans la construction m~me des phrases et dans l'emploi des termes de description et de comparaison. Deux questions telles que "trouver les amphores dont le ¢ol est dans le prolongement de la panse" et "trouver les amphores dont le col ne forme pas d'angle avec la panse" ne peuvent pas ~tre repr6sent6es de la m~me mani~re dans une

548 A. BORILLO et al.

premiere 6tape bien clue leur signification soit identique et conduise vers les m~mes calculs. Du fait que l 'on a dans le premier cas "dans le prolongement de", dans l 'autre "ne pas former un angle avec" la r6duction/t une m6me formulation ne peut pas 6tre automatique- ment pr6vue.

Ainsi les comparaisons qui constituent le deuxi~me type de mise en relation apparaissent dans le langage de repr6sentation sous forme de relations diff6renci6es (comparaison de forme, de dimension, de localisation etc.) et ne s'6tablissent entre les unit6s lexicale que lorsque celles-ci ont 6t6 soumises /t l'effet des relations dites statiques, c'est-/~-dire apr6s l 'exploitation des informations fournies par le lexique. Ces relations dites "dynamiques", viennent s'ajouter comme r6sultat d'une 6rude de comparaison et t6moigner explicitement de l 'orientation donn6e/t la recherche en ce qui concerne le mode de classification des objets soumis ~ l'6tude. C'est en effet dans la nature, ]e hombre, la diversit6 de ces raises en relation que se refl&e l'explicitation des proc6dures de recherche et par l~ m~me l'6tat et la progres- sion de la connaissance scientifique du domaine 6tudi6.

Les relations de comparaison d6gag6es jusqu'ici sont au nombre de six. Leur choix a 6t6 dict6 par les diverses implications que leur formulation peut avoir sur la recherche et le calcul.

1- -Une relation de comparaison peut &re non spdcifide quant aux 616ments/~ comparer (COMPA). Si une question est de la forme "comparer les amphores Xe t les amphores Y" la comparaison doit porter sur toutes les propri6t6s caract6ristiques de X et de Y aussi bien du point de vue de la forme que de la dimension. I1 arrive que cette demande de comparaison soit clairement sp6cifi6e, par exemple: "Comparer les amphores X et les amphores Y du point de rue de leur mille". Dans ce deuxi~me cas la recherche se fera sur la dimension exclusivement.

2--I1 existe une relation de comparaison qui implicitement ou explicitement porte sur la forme (CORES). Certaines questions interrogeant sur des ressemblances ne mentionnent pas Ie facteur de la similitude: "est-ce que le col de l 'amphore X ressemble ~ celui de l 'amphore Y ? Y a-t-il des 616ments dans X et Y qui se ressemblent ? Y a-t-il une ressem- blance entre X et Y ?" etc. En r6ponse ~ ees questions une recherche se fera sur la forme des amphores ou des parties d 'amphores mentionn6es, bien que la notion de forme ne soit pas explicitement exprim6e. I1 se peut 6galement que la question contienne la sp6cification de la comparaison "y a-t-il ressemblance de forme entre X et Y ?, La forme dc X ressemble- t-elle/t Y ?" etc.

3 - -Une relation de comparaison peut porter soit sur la forme, soit sur la dimension, l'inelinaison etc. (CODIF). Cette comparaison qui fait porter l 'accent sur les diffdrences, et non sur les ressemblances comme la pr6c6dente, peut ~tre du type: "y a-t-il des diff6rences entre les amphores X et Y ? Les amphores X et Y sont-elles diffdrentes ?" etc . . . . Dans ce cas, la recherche comme lorsqu'il s'agit de ressemblances s'effectue sur les carac- t6ristiques ayant trait 5. la forme. Cette pr6cision peut &re eontenue explicitement dans la question: "le pied est-il de forme diffdrente sur l 'amphore X et sur l 'amphore Y ? Y a-t-il une diff6rence de forme entre X et Y ?" Cependant on peut avoir ce m~me type de question avec indication explicite que la diff6rence doit porter sur la dimension, l'inclinaison etc . . . . "'Y a-t-il une diff6rence de longueur entre le pied et la panse ? L'inclinaison de l 'anse est-elle diff6rente pour X et Y ?"

4---I1 existe une relation de comparaison faisant r6f6rence h la dimension (CODIM). Dans le langage naturel ce type de comparaison s'exprime par les termes "sup6rieur",

D6scription des Outils 549

"6gal", " i n f 6 r i e u r " . . . et les substantifs correspondant: "la longueur du col est-elle 6gale ~t celle de la panse ? Le col est-il d'une longueur sup6rieure ~t 20 cm ?" Pour cette relation, qu'il y ait ou non sp6cification, la comparaison s'effectue sur des mesures prises sur l 'amphore.

5- -On utilise 6galement une relation de comparaison (COPLU) qui pourrait ~tre assimil6e h CODIF dans la mesure o/~ elle peut porter sur toutes les propri6t6s morphologiques 6tudi6es: forme, dimension, inclinaison, localisation, mais qui donne en mSme temps---ce que CODIF ne fait pas---le sens dans lequel s'6tablit la diff6rence. Dans "y a-t-il une dif- f6rence de longueur entre le col et la panse ?" seule compte la diff6rence de dimension. Dans "le col est-il plus long que la panse ?" on demande pour cette m~me diff6rence celui des deux 616ments dont la dimension est sup6rieure. En outre pour COPLU la sp6cification de la comparaison est toujours indiqu6e. Dans l'6tat actuel de l'6tude nous conservons 6galement comme relation COMOI qui parallble ~ COPLU traduit "moins", "pas aussi" etc . . . .

6- -On utilise enfin une relation de comparaison qui porte sur des eorrdlations (COCOR). Elle est exprim6e dans des phrases telles que "Est-ce que la forme du pied varie avec celle de la panse ? Y a-t-il corr61ation entre la longueur du col et la longueur des anses ?" etc . . . . On l'6voquera simplement ici car sa manipulation semble plus complexe que les autres et des pr6cisions doivent 8tre apport6es aux modalit6s de la recherche qu'elle implique.

Les relations logiques. Outre les relations li6es au domaine propre de la morphologie des amphores, il faut tenir compte pour l'articulation des questions, de l'expression de notions logiques qui apparaissent n6cessairement lorsqu'il s'agit de la manipulation d'un ensemble d'objets: notions de quantit6 (un, plusieurs, tous, pas de) avec des conditions de conjonction (et, ainsi que . . .), de disjonction (ou, soit . . .), d'exclusion (sauf, sans . . .), d'inclusion (parmi, dans le groupe d e . . . ) etc. L'ensemble de ces 616ments de quantification forme un syst6me de liaison logique ind6pendant qui vient se superposer aux deux autres r6seaux: r6seau des relations constitutives du lexique et ensemble des relations de comparaison.

Les opdrations et outils de traduction

Le passage du langage naturel au langage de repr6sentation se fait grace ~t un certain nombre d'outils linguistiques---dictionnaire, analyseur syntaxique, tables d' interpr6tation-- et d'algorithmes qui fixent les modalit6s d'utilisation de ces outils et int6grent tt chaque 6tape l'ensemble des r6sultats partiels obtenus. Comme il serait trop long d'exposer ici la composition et le fonctionnement de chacun des outils nous ne ferons que mentionner le r61e que chacun remplit dans la proc6dure de traduction.

(1) Le dietionnaire automatique contient les termes et expressions du vocabulaire g6n6ral et du vocabulaire relatif au champ 6tudi6, sous une forme cod6e qui permet:

(a) la reconnaissance morphologique lors de l'analyse (variations de nombre, genre, temps, personne, etc.).

(b) la cat6gorisation grammaticale (verbe, nom, p r6pos i t i on . . . )

(c) la cat~gorisation syntaxique (construction verbale transitive, construction verbale ~t l'infinitif, construction adjectivale ~ un compl6ment, etc.)

(d) la cat6gorisation s6mantique pour le vocabulaire sp6cialis6 ("partie", "forme", "dimension", etc.).

550 A. BORILLO et al.

Dans le dictionnaire est 6galement donn6e la traduction des roots dans le langage de repr6sentation, mais comme on l'a pr6cis6 plus haut certaines traductions concernant des traits n'ont qu'une valeur d'indication, utilisable pour une diff6renciation ult6rieure lorsque le trait caract6risera de mani~re pr6cise un objet ou une de ses parties.

C'est gr~tce au dictionnaire que s'effectue la premiere phase de l'analyse du langage naturel. Sa consultation permet d'effectuer la segmentation et la reconnaissance des unit6s linguistiques des questions tout en leur adjoignant les informations utiles pour la suite du traitement.

(2) L'analyseur syntaxique donne une interpr6tation syntaxique des principaux cons- tituants de la phrase. I1 se compose d'un ensemble de r~gles distributionnelles (un rnillier environ) qui dans une premiere approximation structurent les unit6s grarnrnaticales--verbe, nom, adjectif etc.---en groupes syntagmatiques, parfois dot6s d'une valeur fonctionnelle dans la phrase--groupe pr6positionnel, groupe norninal--sujet, groupe verbal etc. L'application de ces r~gles conduit ~t la transformation d'une question en langage naturel en une suite d'unit6s caract6risdes du point de vue de leur cornporternent syntaxique. Ceci ne suffit pas pour que le contenu des questions puisse ~tre interprdt6, mais le r6sultat de ces op6rations constitue une deuxi~me base d'information pour l'application des proc6dures de reconnais- sance pr6vues dans une troisi~me phase.

(3) Les schdmas syntactico-sdmantiques. Dans la s6quence de phrases qui forment chaque question, des 616ments sont consid6r6s comme repr6sentatifs dans le langage naturel des relations logico-s6mantiques qui constituent la syntaxe du langage de repr6sentation. Ces 616ments ddterminent dans la phrase des "sch6mas syntaxiques", ensemble de rnots ou groupes de mots (syntagmes) caract6ris6s syntaxiquement ~t l'issue de la premiere analyse. La reconnaissance de ces sch6mas entraine leur interpr6tation c'est-~t-dire leur traduction dans les termes (relations et unit6s lexicales) du langage-cible. L'extraction de ces structures logico-s6mantiques aboutit / i l'61aboration d'une repr6sentation d'ensemble de la question qui trait6e/t son tour pour se prater ~ des calculs num6riques sera ensuite confront6e aux donndes enregistr6es ~t partir desquelles s'amorcera une r6ponse.

(4) L'analyseur sdmantique ex6cute l'interprdtation s6mantique des termes et expressions du langage de repr6sentation du langage naturel vis-~t-vis des descripteurs (segmentation, forme, inclinaison, dimension, etc.). I1 doit rernplir, pour ce faire, deux fonctions fonda- mentales. D'une part, ramener diverses formulations ~t une mSme traduction si celles-ci sont tenues pour 6quivalentes (par exernple: "haut de panse", "partie sup6rieure de la panse", "6paule", etc.). D'autre part, reconstituer des expressions discontinues, et dont la repr6- sentation est 6clatde en plusieurs syntagmes (ex. "pattie sup6rieure de la panse", ci-dessus). Cette traduction s'effectue gr~tce ~t un lexique hi6rarchis6 des termes et des relations statiques du langage de reprdsentation; la traduetion consistant alors ~t parcourir un certain chernin sur cette arborescence.

Remarques sur la situation du langage naturel dans la ddmarche suivie

Cette traduction des questions en langage naturel dans une repr6sentation exploitable en termes de calculs nurn6riques sur des donndes graphiques a le grand m6rite de mettre ~t jour hun niveau op6ratoire, donc concret, la plupart des probl~mes qui se posent dans tout traitement de l'information v6hicu16e par des textes mais sont g6n6ralement perqus de mani~re confuse. En conclusion, nous nous contenterons ici d'en 6voquer certains sans pr6tendre les r6soudre ou rn~me les poser de mani~re argument6e.

D6scription des Outils 551

Tout d 'abord le probl6me de la d~signation. Dans un domaine aussi restreint que celui auquel nous avons fait r6f6rence pour les amphores, on peut la plupart du temps faire correspondre une description analytique--"panse dont le diam&re maximum est situ6 dans le bas"--gt une d6signation synth6tique--panse piriforme. Or le terme global est employ6 tr~s souvent par les sp6cialistes sans souci de la d6finition stricte qui devrait le sous- tendre. I1 s'ensuit un flottement, une ambiguit6 de la terminologie qui conduit souvent ~ une non-compatibilit6 des diverses descriptions: le but serait donc d'essayer d'6tablir une terminologie se fondant sur ce type de correspondance et m~me dans certains cas d'utiliser rexpression analytique comme base de d6finition du terme global. Car l'6quivalence entre les termes synth6tiques et toutes les phrases susceptibles de d6crire la m~me r6alit6 ou le m~me r6f6rent n'est jamais donn6e de mani6re explicite dans le discours. L'exemple donn6 plus haut de la relation entre "panse piriforme" et "panse dont le diam6tre maximum est situ6 dans la partie basse" qu'il faut ndcessairement expliciter dans le langage de repr6sentation n'est indiqu6e par aucun lien formel dans le langage naturel. I1 faut donc en l'absence d'un vocabulaire normalis6 tenir compte pour la cr6ation des unit6s du lexique ~t la fois de la traduction en termes analytiques, afin de pouvoir 6tablir des correspondances entre les deux formulations dans le langage naturel. Ainsi par l'interm6diaire du langage de repr6sentation on obtient une formulation symbolique qui repr6sente leur contenu analys6. C'est 6galement dans une discipline scientifique le r61e que jouent par exemple les expressions symboliques et les formules par rapport / l la nomination (acide sulfurique, SO¢H2).

Un autre probl6me est celui de la pertinence et de la eompatibilitd. Etant donn6 que le langage naturel comporte des cat6gories non d6finies de mani~re explieite, l 'interpr&ation des termes varie avec les utilisateurs et les observateurs. Ceci est normal car on ne peut attendre des chercheurs qu'ils utilisent tous les mames donn6es dans la marne vis6e scien- tifique. La construction du langage de repr6sentation ~ partir du langage naturel implique par cons6quent un choix fond6 sur l'exploitation que l 'on veut faire de ce langage. D6s lors, la pertinence que l 'on attribue aux 616ments que l 'on choisit (dans notre cas soit dans la segmentation de l'objet, soit dans l'attribution des traits distinctifs) varie avec les hypoth6ses sous-jacentes que l 'on se propose de valider. C'est cette diversit6 des usages qui explique la diversit6 des instrumentations, car une analyse "exhaustive" qui s'adapterait ~t tous les usages est ~t notre avis impensable. La notion d'exhaustivit6 doit ~tre remplac6e d~s lors par la notion de compatibilit6. Le syst6me dolt rester autant que possible, darts sa conception, un syst~me ouvert. Pour cela, dans la construction du langage de reprdsentation, un certain nombre d'am6nagements doivent ~tre pr6vus. Au niveau lexical tout d 'abord il est n6cessaire d'61a- borer des d6finitions---c'est-i~-dire des d6compositions en traits distinctifs--susceptibles de pouvoir se modifier scion les objectifs vis6s; on doit pouvoir faire intervenir des r6gles de r6duction ou de g6n6ralisation fond6es sur des rapports d'inclusion et appliquer des r~gles d'6quivalence ou au contraire de diff6renciation, suivant le niveau de finesse du d6coupage s6mantique des unit6s lexicales que l 'on veut obtenir. Ainsi deux termes pourront apparaRre redondants dans un type d'analyse alors que leur diff6rence sera jug6e pertinente dans une autre utilisation. Pour ce qui est de la structuration du lexique ou de l'articulation de la recherche sur les unit6s du lexique, le choix coneernant la nature et le nombre des relations doit 6galement d6pendre de la finalit~ de l'analyse que l 'on s'est fix6e, mais doit aboutir ~t un syst6me d'ensemble assez souple qui puisse ~tre soumis ~t des r6glages. Darts les deux cas la discrimination doit se faire en fonction d'un point de vue pr6cis, mais sans que cette restric- tion enl~ve sa qualit6 d'objectivit6 gt l'analyse, "objectivit6" 6rant pris bien entendu dans le sens de "explicitation raisonn6e".

552 A. BORILLO et al.

4. CONCEPTION DU SYSTEME DE GESTION

Introduction

La consultation m6canis6e en langage naturel d'une banque de donn6es conduit penser que le dialogue homme/machine doit s'executer, ~t plus ou moins long terme, en temps r6el. Tout utilisateur pourra envoyer (ou recevoir) un message ~t partir (ou sur) d 'une console reli6e ~ l 'ordinateur par une ligne de communication (mode "on line"). L'intervalle de temps qui s6pare l'6mission de la r6ception est un des param6tres essentiels dans la conception g6n6rale d'une banque de donn6es en temps r6el: c'est le temps de rdponse du syst6me.

F ..r.,{oi -'

FIG. 11. Organisation "ON LINE".

Ce temps de r6ponse t peut se ddcomposer de la fagon suivante:

- -Composan te t, = Temps de transfert du message entre le terminal et l 'ordinateur et rdciproquement.

- -Composan te tb = Temps de transfert de l ' information manipul6e entre la m6moire centrale et les supports d ' information et r6ciproquement.

- -Composan te tc = Temps d'interpr6tation du message 6mis.

- -Composan te ta = Temps d'ex6cution de ce marne message.

Ces diff6rentes composantes montrent que tousles syst6mes en temps rdel ont en commun, inddpendamment de leurfonction propre, certaines caract&istiques : ta et tb sont relatives h la configuration hardware (rapidit6 de la ligne de transmission, utilisation des supports d'infor- mation en accbs direct . . . . ); t c et td sont relatives ~t la configuration software (m6thode d'interpr6tation, m6thode de traduction, organisation logique de l ' information, structure des fichiers, mode de consultation, . . .).

Darts le cadre de ce projet, bien que l 'exp&imentation porte sur un syst6me en "Mode Batch", nous le concevons de telle fagon que son utilisation en temps r6el n'entra]ne pas de modifications majeures.

Les travaux de raise au point et/ou de rdalisation sont test6s sur l 'ordinateur UNIVAC 1108 dont la configuration hardware permet de simuler les conditions impos6es par les composantes t, et tb. Nous disposons en effet d 'un tambour magndtiquc de grande capacit6 pouvant &re utilis6 en extension de la m6moire centrale et d'une ligne de transmission (Marseille ~ Orsay) dont la vitesse est de 2400 bauds.

D6scription des Outils 553

L'operating-system (EXEC II) met & notre disposition un software (m&a-assembleur, fortran, snobol . . . . imput/output direct acc6s . . . . ) qui permet de mettre en oeuvre certaines des conditions impos6es par les eomposantes tc et ta. Les fonetions de base int6gr6es dans le syst~me de gestion font que celui-ci se greffe sur l'operating-system pour former un ensemble homog~ne.

Les fonctions utilis6es sont celles qui g6rent en Mode non assistd les entr6es/sorties. Ce choix laisse de grandes possibilit6s dans l'organisation logique de l'information.

~ ~ Fonci'3ons communes

Syst~me de gestion

~ z ~ j / / : ~ / / / / / ~ ~ Fonctions assurant le _ _ ~ ~ ~ d , a l o g u e h o m m e / m o c h i n e

FIG. 12. Interaction software de base e t syst6me de gestion.

Description du systbme

Organisation g#ndrale. Le syst~me est compos6 d'un ensemble de fonctions que l'on peut regrouper par famille:

--fonctions d'interpr&ation; --fonctions de traduction;

--fonctions de recherche;

--fonctions d'analyse num6rique;

--fonctions de correspondances num6riques/s6mantiques; fonctions de reconnaissances des fo rmes ; . . .

Ces fonctions sont (ou seront) exprim6es dans un macro-langage support6 par le Processor PDP appartenant & l'operating-system EXEC II. L'int6rSt de la mise au point d'un tel langage est triple:

(a) Simplification de la d6finition algorithmique des fonctions.

(b) Possibilit6s de cr6er rapidement de nouvelles fonctions.

(c) Possibilit6s de rendre certaines fonctions partageables en cours d'ex6cution par plusieurs utilisateurs.

II est & noter 6galement que l'utilisation de ce macro-langage, proche de l'assembleur, permet de r6soudre plus facilement certains probl~mes d'optimisation en place et/ou en temps.

La plupart de ces fonctions effectuent des calculs (num6riques et/ou non num6riques) en utilisant des tables ou plus g6n6ralement des fichiers dont la structure logique plus ou moins

554 A. BORILLO et al.

complexe depend de leur contenu. La capacite de ces fichiers n’ttant pas connue a priori, et la place disponible en memoire centrale &ant limitee, nous avons homog&&sk les niveaux de memoire-memoire centrale et tambour-en les paginant de la mCme manike: tout l’espace mtmoire utilise par le systeme est decoupe en page de capacite constante. L’organisa- tion de l’information dam une page est toujours la m&me; mais elle peut changer d’une page a l’autre. Les quatre premiers mots sont toujours reserves a la gestion; ils constituent le bloc de contrBZe de la page qui contient les parametres utilises par le systeme pour exploiter une telle structure.

Les operations de lecture et/au d’tcriture entre ces deux niveaux de m&moire sont en- tierement transparentes pour les utilisateurs du systeme. L’allocation (ou la deallocation) des pages est dynamique; une fonction de controle de l’ttat d’occupation des pages doit per- mettre a un instant donne de rendre tout I’espace me’moire partageable par plusieurs utilisateurs.

Opef~t4oo de lecture

Me’molre centralc D6veloppement du tambur

FIG. 13. DCcoupage en pages de l’espace mhmoire.

Organisation despages sur le support tambour. La creation du systeme suppose plusieurs operations d’initialisation et/au de chargement ; l’une d’entre elles concerne l’initialisation du tambour. Cette operation a pour but de dtcouper le tambour en pages. La continuite physique du support est realiste en chainant toutes les pages par l’intermediaire du pointeur de liaison physique. On obtient la cha&e libre de pages. Les parambtres de manipulation de cette chaine libre sont memorises dans le residant du systeme:

T$ETPG -+Pointeur vers la premiere page de la chaine libre.

Q$EUPG -+Pointeur vers la derniere page de la chaine libre.

N$TTPG +Nombre total de pages c&es sur le tambour.

N$LBPG -+ Nombre d’CICments de Ia chaine libre (= Nombre de pages Iibres)

sur le tambour.

Une page, qui va &tre utiliske, est extraite de la chaine libre par rupture de ses liens physiques avec les autres pages de la chaine.

Une page liberte est in&&e dans la chaine libre en queue de chaine.

Organisation despages en m&moire centrale. La memoire centrale est dtcoupee en modules independants les uns des autres; chaque module peut recevoir le contenu dune page.

Certains modules sont utilises par le systeme pour y memoriser les tables et/au les variables dont il a besoin de facon permanente: c’est le resident. Les autres modules sont

reserves aux utilisateurs du systeme.

Dkription des Outils 555

_________-__----_---

FIG. 14. Pagination du tambour A la gh&ation du systkme.

La gestion de la mkmoire centrale utilise la table rksidente A$PGMC qui contient l’adresse absolue des modules et leur Ctat d’occupation g I’instant 1. Cette table est explorCe par la macro-instruction RPGLMC toutes les fois qu’un module est demand6 pour le systkme.

Organisation de I’information dans les pages. L’information contenue dans une page peut &tre organiske, actuellement, selon deux modes possibles (a) le mode LIBRE (b) le mode FIXE.

(a) L’information est dite organiske selon le mode LIBRE si elle ne poss&de aucune structure particulibre. Le systbme peut exhter les ophations de transfert de l’information dans la zone inoccupke de la page soit par valeurs croissantes, soit par valeurs dkroissantes des adresses.

(b) L’information est dite organisCe selon le mode FIXE si elle est contenue, inde’pen- damment de sa propre structure, dans des enregistrements de longueur fixe.

Le type d’accbs aux enregistrements permet de diviser le mode fixe en trois classes:

-classe des accks non symboliques (classe “NSB’)

-4asse des accbs symboliques standards (classe “SBS”)

-classe des a&s symboliques non standards (ciasse “SNS”)

On dit qu’un enregistrement, organis selon le mode FIXE, appartient h la classe “NSB” s’il est toujours rep&k par un nombre reprksentant l’adresse (absolue ou relative) du premier mot machine de l’enregistrement. Dans ces conditions les enregistrements sont normalement manipulh s&quentiellement.

556 A. BOR1LLO et al.

Un enregistrement appartient/~ la classe "SBS" s'il est rep6r6 par un symbole form6 d'une s6quence de caract6res dont la longueur est inf6rieure ou 6gale ~t 6. Ce symbole repr6sente en g6n6ral une old de recherche permettant d'acc6der directement ~t l'enregistre- ment (adressage calcul6). Un enregistrement appart ient/ t la classe "SNS" s'il est rep6r6 par un symbole form6 d'une s4quence de caract6res dont la longueur est inf6rieure/t 64. Ce symbole peut repr6senter un mot darts un dictionnaire, un descripteur dans un lexique . . . . Ces enregistrements sont manipul6s en Ace& direct toutes les fois qu'ils sont rep6r6s par leur symbole.

Le macro-langage

Ddfinition. Le macro-langage est compos6 d'un ensemble de fonctions 416mentaires appel6es Macro-instructions (proc6dures dans le syst6me EXEC II). Ces macro-instructions se regroupent en deux cat6gories:

a--Les macro-instructions g~ndrales

Les fonctions, r6alis4es par ces macro-instructions, permettent de manipuler l 'organisa- tion g6n6rale du syst6me ind6pendamment de son contenu.

b--Les macro-instructions spdcifiques

Les fonctions, r6alis6es par ces macro-instructions, permettent de traiter tousles prob- 16mes relatifs h une banque de donn6es particuli6re.

Format des Macro-instructions. Une macro-instruction est form6e de cinq zones nom- m6es respectivement zone "Etiquette", zone "Fonct ion", zone "Param6tres", zone "Op6randes" et zone "Branchements".

TABLEAU 2

Zone 1 Zone 2 Zone 3 Zone 4 Zone 5

Op6randes Branchements Etiquette Fonction Param6tres-

Variables Variable Normal Anormal d'entrde de sortie

Les zones sont s6par6es les unes des autres par au moins un caract6re blanc. Les zones 3, 4 ou 5 peuvent etre divis6es en un ou plusieurs champs; & l'int6rieur d'une zone, les champs sont s4par6s par une virgule.

Les zones 1, 3, 4 et 5 sont optionnelles; leur presence et/ou leur absence d4pendent du code fonction.

~ T IIQ ETI FONC P1, P2, Pa . . . . . . P~ El, E2,. . . . , Sl, S2,.... Sn BN1 . . . . . . BA~ . . . .

FIG. 15. Format g6n6ral.

D6scription des Outils 557

Description des zones.

La zone "'Etiquette". L'6tiquette est form6e, au maximum, de six caract~res; quand elle est d6finie, elle commence toujours en colonne num6ro 1. Associ6e h une macro-instruc- tion, elle permet 6ventuelle de r6aliser des it6rations.

~ D E B FONC1 zone 3 zone 4 zone 5.

FONC2 zone 3 zone 4 DEB . . . . . . . . .

La zone "Fonction". La zone "fonction" ne dolt jamais commencer en colonne num6ro 1. Elle contient le codefonction repr6sentant un mn6monique de la fonction r6alis6e.

La zone "Paramdtres". La zone "param&res" correspond ~t des d~finitions para- m~tr~es de macro-instructions. Le contenu de cette zone d6pend du code fonction, il peut repr6senter un (ou des) compteur(s), un (ou des) indicateur(s) de test, . . .

Exemple 1: W U P F R E L O N G

zone param&res

$EMET, POINT.

La zone param&re contient la longueur (LONG) d'un bloc de mots machine, m6moris6 partir de la zone fixe $EMET, que la macro-instruction transfere dans la page d'adresse absolue POINT.

Exemple 2: TESETA $ETAT "CHOC" .

zone param&re

La fonction TESETA teste l'6tat d 'occupation d 'un enregistrement. La zone param&res contient l 'indicateur d'6tat d 'occupation; si la valeur de cet indicateur ne correspond pas ~t l'6tat d 'occupation de l'enregistrement, TESETA donne le contr61e h la ligne de codification d'adresse " C H O C " (sortie anormale).

La zone "Op~randes". La zone "Op6randes" contient les variables sur lesquelles le code fonction opbre. On distingue:

- - les champs contenant les variables d'entrde; ce sont les donn6es.

- - les champs contenant les variables de sortie; ce sont les r6sultats.

Ces champs sont optionnels.

Certaines macro-instructions ont des variables d'entr6e/sortie implicites; l ' information correspondante est contenue dans un (ou des) registre(s) r6serv6(s). D'autres n 'ont pas de r6sultats explicites en ce sens que ceux-ci portent sur une zone non 616mentaire de la mdmoire centrale.

558 A. BOP, ILLO et al.

La zone "Branchements". La zone "Branchements" permet de rompre le d6roulement s6quentiel d 'un programme exprim6 en termes du macro-langage. On distingue deux types de branchements:

a - -Les sorties normales. Les sorties normales, quand elles sont multiples, sont li6es ~t la nature des r6sultats de la macro-instruction. L'absence de sortie normale indique que le d6roulement est s6quentiel.

b - -Les sorties anormales. Les sorties anormales sont li6es, en particulier, h l'impossibilit6 pour une macro- instruction donn6e de s'ex6cuter (d6passement de capacit6 dans une page, erreur de syntaxe . . . . ).

Les famil les de macro-instructions. Les macro-instructions peuvent 6tre class6es, in- d6pendamment de la cat6gorie h laquelle elles appartiennent, en families. Ce classement d6pend de la nature du code fonction. On distingue:

--Macro-instructions d'Initialisation --Macro-instructions de Calcul d'Adresses --Macro-instructions de Transfert --Macro-instructions d'Entr6e/Sortie --Macro-instructions de Gestion des M6moires --Macro-instructions de Tests --Macro-instructions de Structure --Macro-instructions de Conversion --Macro-instructions d'Analyse des Erreurs

• o ,

I

l Codificat~on du I symbole

Oui

Colcul de I'odresse r~iotive ! ~quivolente ou s~,mbole F

Oui

['~"edement de Io zone de contr~le I'enregist remerrt- I

I Sortie anormole

~I ( . . . . . . . . I ]

__J Treitemert de _ I~ cqih 5iOT~

I . . . . . J

(a)

FIG. 16. (a) L'algorithme; (b) programme.

(b)

DEBUT

RECORD

D6scription des Outils 559

CHOC

SUIT

o , l l

CODSBS SIZCOD SYMBOL, CODE, LONGSB. ADEQSB SIZRCD CODE, IAD. IBENPG POINT, IAD. TESETA 0 CHOC. CHGETA 1. CHGZCE LONGSB, SYMBOL. ALLERA SUIT. ADCHOC POINT, IAD RECORD. , . o .

Programmation. Les algorithmes doivent s'exprimer en termes de ce macro-langage. Ainsi tout programme du syst6me de Gestion sera constitu6 par un ensemble de macro- instructions.

Le programme suivant enes t une illustration: il permet de cr6er un enregistrement de longueur fixe rep6r6 par un symbole standard.

5. CONCLUSION

Les travaux qui sont expos6s ici poursuivent un objectif principal qui est la conception et l'exp6rimentation d'un software apte ~ assurer le fonctionnement en temps r6el d'une banque oO les donn6es sont constitut6es par l'enregistrement ~ I'aide d 'un lecteur de courbes des formes d'un ensemble d'objets (dont l'6tude constitue par ailleurs une discipline scientifique partieuli~re), tandis que les demandes d'information relatives ~ ces formes sont formul6es dans une langue naturelle (ici, le frangais).

Les probl6mes que soul6ve la r6alisation d'un tel dispositif sont d'ordre math~matique, linguistique et informatique, dans les conditions tr~s particuli~res dries ~ la n6cessit6 d'int6grer les d6marches et les contraintes propres ~t chacune de ces sciences. Ces difficult6s convergent dans la raise au point d 'un langage de reprdsentation cible, ou langage-pivot, dans les termes duquel l'analyse automatique des questions en L.N. puisse &re mise en correspondance avec les produits structurels de l'analyse math6matique des donn6es graphiques enregistr6es, de telle mani6re que, sous le contr61e du systkme d'exploitation, l'ensemble du dispositif soit en mesure de donner en temps r6el des r6ponses pertinentes.

La phase actuelle des recherches a pour but d'approfondir un certain nombre de ques- tions m6thodologiques g6n6rales d6finies par les travaux pr6c6dents et d6coulant, pour l'essentiel, de l'int6gration dans une m~me chMne de traitement automatique d'informations et de m6thodes de nature essentiellement h6t&og~ne. Ainsi, la d6finition informatique du langage-pivot exige l'organisation de l'ensemble des fonctions num6riques obtenues, en accord avec les structures s6mantiques isol6es dans l'analyse conceptuelle de la discipline consid6r6e. Du point de vue linguistique, les deux probl6mes principaux concernent la mise au point (a) d'un systbme capable d'int6grer les syntagmes produits au terme de l'analyse syntaxique et (b) celle d 'un analyseur s6mantique permettant de passer des produits de cette int6gration h une repr6sentation des questions dans les termes du langage-pivot. L'objectif de tous ces travaux est de d6finir une classe de langages formels d'analyse et d'interrogation ayant une structure s6mantico-logique plus riche que celle des langages documentaires, m~me 6volu6s.

Le projet comprend enfin deux volets th6oriques qui s'articulent sur le corps principal des recherches: (a) le traitement des donn6es graphiques s'orientera vers la raise au point de

37

560 A. BORILLO et al.

m6thodes math6matiques 6volu6es bas6es sur des "modbles stochastiques de d6format ion" et leur exp6rimentation; (b) enfin, 5. l ' intersection de l ' informatique et de la linguistique, la recherche de modules linguistiques formels sous-jacents ~t l 'analyse des questions devrait permettre la syst6matisation de l '6criture du traducteur par le recours aussi large que possible ~ la compilation.

Notons enfin que si les objectifs du projet sont d 'ordre tr6s g6n6ral, pour ce qui concerne la mise au point de syst6mes informatiques de traitement intfgr6 de l ' informat ion textuelle et graphique, l 'exp6rimentation ~t partir de donn6es issues d 'une discipline scientifique particuli6re constitue l '6preuve selon laquelle sera mesur6 le caract6re op6ratoire de ces m6thodes. Le projet acquiert de ce fait un prolongement th6orique plus g6n6ral, en ce qu'i! d6finit une approche pour l '6tude syst6matique des correspondances entre analyse con- ceptuelle et observation des formes, ainsi qu 'un cadre m6thodologique de caract6re g6n6ral qui puisse contribuer ~t approfondir l 'objectivation et la coh6rence de nombre des sciences d 'observation.

B I B L I O G R A P H I E [1] J. ANGL~S et A. HESNARm Code pour l'analyse des amphores de Mdditerrande Occidentale. M6moire de

maitrise, Aix-en-Provence (1970). [2] C.A.D.A. : Etude d'un syst~me intdgrd d'acquisition et d'exploitation automatiques de donndes scientifiques

(Recherches effectu6es du ler Mai au 31 Octobre 1971). Rapport C.N.R.S./36 (1971). [3] C.A.D.A. : Etude d'un syst~me int~grd d'acquisition et d'exploitation automatiques de donn~es scientifiques

(Recherches effectu6es du ler Novembre 1971 au 30 Avril 1972). Rapport C.N.R.S./39 (1972). [4] C.A.D.A. : Etude d'un syst~me intdgrd d'acquisition et d'exploitation automatique de donndes scientifiques

(Recherches effectu6es du ler Mai au 31 Octobre 1972). Rapport C.N.R.S./40 (1972). [5] A. BORILLO, M. BORILLO, L. BOURRELLY, E. CHOURAQUI, W. FERNANDEZ DE LA VI~GA, A. GU~NOCHE,

A. HESNARD, J. TOGNOTTI et J. VIRBEL: Premiers 616ments d'une exp6rience de construction d'un syst6me int6gr6 de traitement de 1'information textuelle et graphique. Les banques de donndes en arch~ologie (Edit6 par M. BORILLO et J. C. GARDIN). Editions du C.N.R.S. Paris. (A paraitre.)

[6] A. BORILLO: La formalisation des donn6es linguistiques dans la perspective de leur int6gration aux donn6es graphiques. Analyse des syst6mes de repr6sentation. Vancouver (1972). (A paraitre.)