Rapport de Stage - MSH Val de Loire |
-
Upload
khangminh22 -
Category
Documents
-
view
1 -
download
0
Transcript of Rapport de Stage - MSH Val de Loire |
Rapport de Stage
Ossant Rémi
Réalisé sous la direction de
Cécile Boulaire, Maître de conférences à l’université François-Rabelais
Jorge Fins, Ingénieur d’étude à la MSH Val-de-Loire
Olivier Marlet, Ingénieur d’étude au CNRS
Soutenu le 28 juin 2016
1
Résumé
Ce rapport de stage présente le projet OUTAGR de l’équipe de recherche Laboratoire
Archéologie et Territoires au sein duquel j’ai effectué 3 mois de stage sous la direction d’Olivier
Marlet, ingénieur d’étude au CNRS. J’y expose les missions qui m’ont été confiées à savoir :
l’encodage en XML-TEI d’un inventaire des sites comportant de l’outillage agricole daté de la
période gallo-romaine en Gaule, la réalisation d’un instrument de recherche à partir de cet encodage
ainsi que des recommandations pour la réalisation d’autres projets utilisant la TEI.
Summary
This training report presents the OUTAGR project of the research team “Laboratoire
Archéologie et Territoires” within I past 3 months as a part of my training under the direction of
Olivier Marlet, design engineer at CNRS. I outline in this document the missions I had to do, which
were: to encode in XML-TEI an inventory which compiles all the archaeological tools recovered
on archaeological sites of the Gaule, the realisation of a search engine and a list of
recommendations for others projects which could use the TEI technology.
2
Remerciements
Je tiens tout d’abord à remercier Olivier Marlet, ingénieur d’étude au CNRS, qui a été mon
tuteur professionnel durant ce stage, pour m’avoir permis de réaliser ce stage ainsi que pour ses
conseils précieux et sa disponibilité.
J’ai eu l’occasion de rencontrer de nombreuses personnes au cours de ce stage, notamment
toute l’équipe du LAT et les doctorants y travaillant qui se sont montrés accueillants et disponibles
durant toute la durée de mon stage.
Je tiens ensuite à remercier toutes les personnes qui ont trouvé le temps de m’apporter des
conseils, de répondre à mes questionnements ou de m’apporter toute forme d’aide durant cette
période de stage, tout particulièrement Jorge Fins, ingénieur d’étude à la MSH Val-de-Loire, pour
son aide et sa disponibilité, Pierre-Yves Buard, responsable d'édition électronique aux Presses
universitaire de Caen, pour son aide précieuse, ainsi que Mathieu Duboc, ingénieur d’étude au sein
des Bibliothèques Numériques Humanistes, mais également Sandrine Breuil, Ingénieur contractuel
au CNRS, et Guillaume Porte, ingénieur d’étude indépendant.
Je remercie Alain Ferdière, professeur honoraire des universités, et Xavier Rodier, directeur
d’équipe du Laboratoire Archéologie et Territoire, pour m’avoir permis de réaliser ce stage.
J’adresse également mes remerciements à Cécile Boulaire et Laurent Gerbier pour m’avoir
permis de réaliser cette année de master 2 « Patrimoine Écrit et Édition Numérique », ainsi qu’à
toute l’équipe pédagogique du CESR pour leur accompagnement et l’enseignement de qualité qu’ils
m’ont offert tout au long de cette année et pour m’avoir transmis le goût du monde du livre et des
humanités numériques.
Je n’oublie pas enfin pour leur soutien et leurs encouragements constants durant cette année
Adèle, mes parents et mes amis.
3
Sommaire
Résumé 1
Summary 1
Remerciements 2
Sommaire 3
Introduction 5
Abréviations : 6
Chapitre premier : Cadre institutionnel et scientifique du projet 7
I. Le cadre institutionnel 7
1) Le LAT : une équipe de recherche au sein d’une UMR 7
2) Quelques projets de recherche du LAT 9
a. Le projet Marmoutier : archéologie d’un site monastique dans la longue durée 9
b. SOLiDAR : l’utilisation de la technologie LiDAR dans le cadre de la recherche 9
II. Le projet OUTAGR : objectifs et dimensions scientifiques 11
1) Corpus : origine, création et intérêt scientifique 11
2) Description du corpus 12
3) La mission de stage 12
Chapitre deuxième : Le choix et l’utilisation de la TEI et de l’EAD pour le projet OUTAGR 14
I. L’insertion de la TEI au sein du LAT 14
1) Définition et enjeu de la TEI 14
a. Présentation de la TEI 14
b. Avantages et défauts d’une telle technologie dans le cadre du projet 15
2) L’utilisation de la TEI 16
a. Une structure XML adaptée au corpus 16
b. Des balises TEI adaptées au monde de l’archéologie 18
c. La mise en place de l’encodage 19
II. La création d’un instrument de recherche adapté 20
1) L’utilisation de l’EAD : 20
4
a. Définition 20
b. Le passage de la TEI à l’EAD 21
2) Le logiciel libre Pleade dans le cadre du projet 22
a. Présentation du logiciel PLEADE 22
b. Manipulation du logiciel 22
Chapitre troisième : Conduite du projet et perspectives d’exploitation en humanités numériques
24
I. Mise en place d’un calendrier et d’une méthodologie de travail 24
1) État de l’art : la visualisation du but à atteindre 24
2) La mise en place d’un protocole et d’un calendrier 25
II. L’adaptation en cours de projet 26
1) La nécessité d’une autoformation 26
2) L’utilisation d’un réseau d’acteurs des humanités numériques 27
III. Un projet tourné vers de futures activités du laboratoire 29
1) La mise en place d’outils réutilisables 29
2) La rédaction d’un rapport sur le protocole suivi au cours du projet 29
3) La communication autour du projet 30
IV. Bilan et perspectives 31
Conclusion : 34
Table des annexes : 35
Bibliographie et Webographie générale : 66
5
Introduction
Le stage décrit dans ce document, et proposé par Olivier Marle et Alain Ferdière au sein du
LAT, était parfaitement en phase avec mes attentes : la structure était celle d’un laboratoire de
recherche et la mission consistait en un travail alliant à la fois une gestion de projet et une réalisation
technique touchant au thème des humanités numériques.
Au cours de ma première année de master réalisée au sein du CESR, la rédaction d’un
mémoire, portant sur un événement des guerres de Religion en France, m’a permis de découvrir le
monde de la recherche et a conforté mon souhait de poursuivre dans ce domaine. Avant ces deux
années de master, j’ai réalisé une licence Histoire et Archéologie, le fait de pouvoir réaliser un stage
qui touchait à ces domaines me motivait et m’intéressait d’autant plus.
J’ai réalisé un stage de trois mois au sein du Laboratoire Archéologie et Territoire avec pour
charge de mettre en place le projet OUTAGR (Outillages Agricole gallo-romain). Ce rapport
présente le projet ainsi que les missions qui m’ont été confiées à savoir : l’encodage en XML-TEI
d’un inventaire des sites comportant de l’outillage agricole pendant la période gallo-romaine en
Gaule, la réalisation d’une publication électronique à partir de cet encodage ainsi que des
recommandations pour la réalisation d’autres projets utilisant la TEI. L’objectif est ici de présenter,
pour partie et par l’exemple du projet OUTAGR, un premier développement innovant d’édition
XML dans le domaine des humanités numériques au sein d’un laboratoire de recherches
archéologiques. Dans le cadre de mon stage, j’ai réalisé un document présentant le protocole que
j’ai suivi pour mener à bien la mission, il y sera fait régulièrement référence au sein de ce mémoire,
en effet ce document ayant une visée purement technique, il offre parfois des précisions
supplémentaires aux éléments qui sont exposés.
Le rapport s’articule en trois parties, une première présente le cadre institutionnel et
scientifique du projet, la deuxième présente l’aspect technique du projet ainsi que les choix et les
principales difficultés rencontrées, enfin la dernière partie présente l’aspect gestion de projet du
stage réalisé au sein du LAT et les perspectives pour le laboratoire.
6
Abréviations :
: Carte Archéologique de Gaule
: Cités, Territoires, Environnement et Sociétés.
: Centre National de la Recherche Scientifique
: Cascading Style Sheets
: Encoded Archival Description
: Hypertext Markup Language
: Institut National de Recherche Archéologique Préventive
: Laboratoire Archéologie et Territoires
Outillage Agricole Gallo-Romain
PHP Hypertext Preprocessor
Sciences Humaines et Sociales
: Text Encoding Initiative
: Unité Mixte de Recherche
: Unité Propre de Recherche
: Extensive Hypertext Markup Language
: Extensible Markup Language
: Extensive Stylesheet Language Transformation
7
Chapitre premier : Cadre institutionnel et scientifique du projet
Le Laboratoire Archéologie et Territoires est une équipe de recherche dépendant de l’UMR
CITERES et constitue aujourd’hui « l’un des principaux pôles de recherche en archéologie
métropolitaine, de la Préhistoire récente à l’Époque Moderne1 ». Le LAT a été créé en 1992 avec le
statut d’UPR avant d’obtenir son statut d’UMR avec son rattachement à l’Université François
Rabelais en 1994. Son intégration au sein de CITERES a eu lieu lors de la création de cette dernière
en 2004 dans le cadre d’une politique de mutualisation du CNRS. Cette UMR a pour objet
l’étude des villes et des territoires au sens large, cette problématique regroupe à la fois des
recherches sur les zones urbaines, sur la question environnementale, sur les territoires, les sociétés
ainsi que sur les effets des recompositions sociales. Pour pouvoir aborder tous ces thèmes, elle est
composée de quatre équipes de recherche2. La première correspond à l’équipe Construction
politique et Sociale des Territoires (CoST) dirigée par Alain Thalineau qui travaille à une meilleure
connaissance des « effets sociaux et spatiaux » notamment à travers les effets de déterritorialisation
et de (re)territorialisation3. L’équipe Monde arabe et Méditerranée (EMAM) s’intéresse pour sa part
aux relations entre le monde arabe et les autres espaces aux périodes moderne et contemporaine,
elle est dirigée par Nora Semmoud4. L’équipe ingénierie du Projet d’Aménagement, Paysage et
Environnement (IPA-PE), constitue l’une des autres équipes de recherche de CITERES, et travaille
sur les transformations des milieux naturels et des espaces aménagés5.
La dernière équipe de recherche constituant l’UMR CITERES est le « Laboratoire
Archéologie et Territoires » dirigé par Xavier Rodier. Son objet d’étude se subdivise en plusieurs
grands axes de recherche parmi lesquels il est possible de citer : l’analyse de l’inscription des sociétés
dans un environnement et leur propre production d’espaces construits à travers le temps et à partir
d’études archéologiques ou encore l’étude des relations qu’entretenaient les sociétés avec l’espace.
1 http://citeres.univ-tours.fr/spip.php?rubrique82 2 Voir figure 1 3 http://citeres.univ-tours.fr/spip.php?rubrique62 4 http://citeres.univ-tours.fr/spip.php?rubrique63 5 http://citeres.univ-tours.fr/spip.php?rubrique57
8
Ces thèmes sont abordés par le biais de plusieurs branches de l’archéologie, notamment
l’archéologie du bâti, la zoo-archéologie, la céramologie, la géomorphologie mais aussi l’histoire.
Le champ de recherche du LAT concerne la partie occidentale du monde ainsi que le monde
oriental depuis 2004 sur une période allant de la Préhistoire à l’époque moderne. En tant qu’équipe
de recherche, le LAT, comme l’ensemble de l’UMR CITERES, dépend à la fois de l’Université
François-Rabelais de Tours ainsi que du CNRS, elle est également sous la tutelle de l’INRAP et
sera prochainement sous celle du Ministère de la Culture.
Figure 1 : Organigramme de l’UMR CITERES. URL : http://citeres.univ-tours.fr/spip.php?rubrique84
9
Le LAT mène des projets dans plusieurs domaines, par différents biais et bien souvent en
coopération avec d’autres institutions et organismes de recherche. Il m’a semblé intéressant de
présenter les deux principaux afin d’avoir un aperçu de la diversité des projets mis en place par le
LAT à la fois par leurs objectifs mais également par les moyens techniques et scientifiques qu’ils
impliquent dans leurs mises en œuvre.
Ce programme de recherche consacré au site archéologique de Marmoutier a été lancé en
2004 par le LAT et a pour objectif l’étude de l’organisation spatiale d’un établissement monastique
ayant accueilli une communauté religieuse instituée par Saint-Martin au IVeme siècle de notre ère. Le
site archéologique qui fait l’objet de cette étude est localisé à quelques kilomètres de la ville de
Tours1.
Ce projet inclut la fouille d’espaces funéraires, d’espaces bâtis d’époque médiévale et
moderne qui ont composé le monastère, ainsi que d’espaces extérieurs2. Ce projet a également pour
but de fournir un chantier-école aux étudiants d’archéologie, d’histoire et d’histoire de l’art de
l’Université François-Rabelais de Tours au cours de campagnes annuelles de six semaines (entre les
mois de juin et juillet) durant lesquelles ceux-ci peuvent se former à la fouille archéologique ainsi
qu’aux diverses pratiques qu’elle implique. Ce projet donne lieu à une quantité importante de
publications rassemblées dans un rapport annuel d’avancée du chantier3. De nombreux étudiants
en archéologie de Tours travaillent dans le cadre de leur mémoire de recherche sur certains des
éléments constitutifs du site ce qui augmente la quantité de productions scientifiques sur le sujet.
Ce projet de recherche commencé en 2014 porte sur les forêts domaniales de Chambord,
Boulogne, Russy et Blois qui forment un ensemble au sein duquel a été créé le « domaine
Chambord » entre 1522 et 1650. Le but du projet est de mettre en place une télédétection LiDAR4
1 http://www.archearegioncentre.org/Marmoutier.html 2 http://citeres.univ-tours.fr/spip.php?article1305 3 https://hal.archives-ouvertes.fr/halshs-00679740 4 La télédétection LiDAR consiste en l’acquisition de données topographiques et altimétriques par le biais d’un système laser aéroporté associé à un système de localisation par satellite. Ce système permet l’acquisition de données de hautes résolutions (de l’ordre de dix points par mètre carré) et permet de passer au travers de la couverture végétale lors de l’enregistrement des points au sol. Les données obtenues forment des nuages qu’il est possible de transformer en modèles 3D.
10
afin de détecter les microreliefs à travers le massif forestier et ainsi pouvoir observer des structures
archéologiques ou naturelles1. Des prospections pédestres ont permis de mettre en évidence un
nombre important de traces d’occupation en son sein, ce qui a contribué à motiver ce projet.
Une fois mené à terme ce projet permettra à la fois de constituer une base de données
spatiale dans un système d’information géographique afin de pouvoir conduire des analyses fines
de certains secteurs présentant un intérêt archéologique, géographique ou géomorphologique et
dégager des perspectives de recherche pour l’exploitation de ces données2. Par le biais de ce projet,
le LAT a également pour but de mettre en place des protocoles de traitement et d’analyse de
données résultant d’une télédétection LiDAR dans le cadre de projets en laboratoire de recherche.
Le but est également de permettre une valorisation de ces données à destination du grand public
par le biais de la médiation notamment en offrant des représentations virtuelles du domaine
forestier en grande partie inaccessible.
Ce projet est mis en place dans le cadre d’un partenariat avec le laboratoire Intelligence des
Patrimoines3 qui travaille sur ce sujet dans le cadre du « projet Chambord4 », mais également le
Laboratoire Géohydrosystèmes Continentaux Département Géosciences Environnement5 de
l’Université François-Rabelais qui travaille sur « l’étude de l’impact du changement climatique et
des activités anthropiques sur les systèmes fluviaux, les bassins versants et les ressources naturelles
associées6 ».
1 http://citeres.univ-tours.fr/spip.php?article2133 2 Ibid. 3 https://www.intelligencedespatrimoines.fr/ 4 https://www.intelligencedespatrimoines.fr/programme/projets/ 5 https://geosciences.univ-tours.fr/ 6 http://citeres.univ-tours.fr/spip.php?article2133
11
Le corpus de documents qui a été l’objet de travail du stage s’apparente à un inventaire de
l’outillage agricole retrouvé au sein de sites gallo-romains. Cet outillage correspond à différentes
catégories d’objets : des outils aratoires, des outils de charronneries, d’autres utilisés pour
l’harnachement des animaux, des outils dédiés au travail du bois, etc… Du point de vue des bornes
chronologiques, Alain Ferdière a fait le choix de traiter ce sujet sur une période longue puisqu’elle
s’étale de la Tène Finale (IIeme siècle avant J.-C.) jusqu’au début du Haut Moyen-Âge (IVeme siècle
après J.-C.). L’inventaire s’attache donc à donner des informations sur la période dite « romaine »1.
Les sites archéologiques concernés sont ceux des provinces gauloises, germaniques et Alpines, ainsi
il comprend des sites localisés dans les limites géographiques de la France actuelle mais également
sur une partie de l’Allemagne, la Suisse, les Pays-Bas et la Belgique.
Ce travail a été réalisé par Alain Ferdière, notamment au cours de sa thèse2, ainsi que dans
plusieurs ouvrages de synthèse qu’il a écrit ou auquel il a participé, mais également grâce au
dépouillement de la CAG3 et de publications diverses concernant l’outillage antique. Il avait
originellement pour but de documenter une communication présentée au Colloque d’AGER de
Toulouse en 20074. Il a ensuite pris une dimension plus grande et a, aujourd’hui, pour objectif de
fournir un outil de recherche à utiliser à des fins de typologies pour l’une des catégories d’objets
archéologiques. Il permet de donner une vision globale de l’activité des sites ruraux durant la
période d’étude à travers la présence ou l’absence d’un ou de plusieurs types d’outillages. Ce travail,
à la fois du point de vue de son échelle ainsi que de son but d’exhaustivité, est inédit et a pour
ambition de devenir un outil de référence concernant la cartographie de la présence d’outillages
agricoles datant de la période gallo-romaine sur l’intégralité des provinces gauloises, germaniques
et Alpines.
1 La période dite romaine s’étale d’environ 50 avant J.-C. jusqu’à 475 après J.-C. 2 Alain Ferdière, Recherches sur l’habitat rural gallo-romain en Beauce : autour de la fouille de Dambron (1972),
thèse 3e cycle, Université. Paris IV, 6 vol., 946 p. 3 La collection Carte archéologique de Gaule (CAG) correspond à un ensemble de catalogues édités par département français constituant un pré-inventaire archéologique. 4 Alain Ferdière, « Recherche sur les contextes de découverte d’outillage agricole et objets liés au travail et à la production rurale en Gaule romaine », in : Ph. Leveau, C. Raynaud, R. Sablayrolles et F. Trément (dir.) - Les formes de l’habitat rural gallo-romain. Terminologies et typologies à l’épreuve des réalités archéologiques, Actes du Colloque AGER VIII (Toulouse, 2007), Aquitania, Suppl. 17, Bordeaux : 81-107.
12
L’inventaire se présente originellement sous la forme d’un document Word, au format
.docx, de 400 pages1 contenant 2729 entrées, il lui est associé une bibliographie de 200 pages
contenant environ 2700 références. L’auteur a également rédigé plusieurs documents annexes de
quelques pages, notamment une liste des différents outils ainsi que les catégories auxquelles ils
appartiennent, une liste des différents types de sites archéologiques2, une présentation de
l’inventaire ainsi qu’un document concernant les « outils agricoles miniatures en contexte funéraires
et culturels ».
L’inventaire étant le document principal du corpus, il convient d’en donner une description
plus précise. Celui-ci est organisé de manière alphabétique, bien qu’un certain nombre d’entrées
aient été rajoutées par la suite et simplement listées les unes à la suite des autres. Chaque entrée de
l’inventaire porte le nom du site, plusieurs informations quant à la localisation de celui-ci, les
différents outils archéologiques retrouvés en son sein ainsi que les références bibliographiques qui
permettent d’attester de leur présence. L’auteur a parfois ajouté, au sein des entrées, quelques
informations supplémentaires concernant les outils, le contexte de découverte de ceux-ci ou encore
les incertitudes qui perdurent sur certains points.
La mission de stage consistait en l’édition TEI du corpus afin de pouvoir réaliser une édition
électronique mise en ligne avec le logiciel libre PLEADE afin de mettre en place un instrument de
recherche pour le rendre exploitable. L’offre de stage détaillait donc les grandes étapes à réaliser.
Plus précisément, le stage a consisté à mettre en place le protocole d’édition en ligne du corpus, la
gestion du projet et à le réaliser techniquement. La taille du corpus et sa densité nécessitaient la
création d’un instrument de recherche qui soit aisément utilisable tout en permettant une
connexion entre l’inventaire et la bibliographie par le biais des références bibliographiques.
L’un des enjeux du stage était de permettre au LAT une première expérience de l’usage de
la TEI pour la publication en ligne de documents. Jusqu’à présent, l’équipe de recherche n’avait
jamais réalisé de publication en utilisant cette technologie. Dans ce cadre, une documentation
présentant les choix qui ont été faits, les différentes possibilités qui se sont présentées pour mener
1 Voir annexe 1. Elle présente un extrait de l’inventaire au format .docx, réalisé par Alain Ferdière. 2 Les différents types de sites sont au nombre de 52, parmi il peut être cité à titre d’exemple : les camps militaires, les villes, les nécropoles, les sépultures ou encore les villae.
13
à bien les différentes étapes de la mission, a été produite1. Plusieurs fichiers informatiques
spécifiques ont également été créés dans la perspective d’une réutilisation dans d’autres projets,
c’est le cas notamment du teiHeader, c’est-à-dire la partie d’entête du fichier TEI qui contient toutes
les métadonnées le concernant, nous y reviendrons dans une autre partie2.
1 Voir annexe 4. 2 Voir p. 29.
14
Chapitre deuxième : Le choix et l’utilisation de la TEI et de
l’EAD pour le projet OUTAGR
La technologie XML étant innovante au sein du laboratoire Archéologie et Territoires dans
le cadre de projets de recherche, il a été nécessaire de mettre en place à la fois une TEI adaptée au
monde de l’archéologie et de réfléchir à l’insertion de la TEI et de l’EAD dans le cadre du projet
OUTAGR
La TEI est à la fois un langage se basant sur la technologie du XML et un ensemble de
recommandations pour la description et la structuration des textes en sciences humaines1, mise en
place en dans les années 1990 comme un projet au sein d’un mouvement appelé « Humanities
computing » qui allait devenir les Humanités numériques2. Elle s’est depuis beaucoup développée
et est aujourd’hui principalement utilisée pour l’encodage de texte, notamment dans le cadre de
travaux sur des sources primaires mais elle peut aussi bien servir pour des documents numériques
vidéos ou audios. Ce langage s’est aujourd’hui imposé comme le standard de fait de l’édition
numérique et particulièrement concernant la publication des sources primaires3. Dans le cadre
d’une chaîne éditoriale, la TEI a été adoptée par de nombreuses structures de manière systématique,
c’est le cas notamment de la chaîne éditoriale des Presses universitaires de Caen qui a intégré le
XML pour l’ensemble de sa production en mettant en avant la volonté de rationaliser les pratiques
autour du document numérique et en la considérant comme une solution adaptée aux grandes
fonctions de l’édition scientifique4.
1 http://www.unicaen.fr/recherche/mrsh/document_numerique/projets/chaine_editoriale 2 Lou Burnard, Qu’est-ce que la Text Encoding Intiative ? [en ligne], OpenEdition Press, 2015, URL : http://books.openedition.org/oep/1298, consulté le 31/05/2016 3 Emmanuel Château, L’encodage des textes [en ligne], URL : http://www.desgodets.net/edition-des-cours/model, publié le 01/09/2013, consulté le 06/06/2016. 4 www.unicean.fr/recherche/mrsh/document_numerique/projets/chaine_editoriale
15
Comme l’avancent Marjorie Burghart et Nicole Dufournaud dans leur article Édition
électronique de sources : XML et Text Encoding Initiative (TEI) à l’École1, la TEI permet de « dépasser
certaines limites des outils traditionnellement utilisés par les chercheurs, pour répondre aux besoins
des SHS ». La TEI cumule en effet plusieurs avantages qui ont été mis en avant dans l’ouvrage de
Lou Burnard, Qu’est-ce que la Text Encoding Initiative2. La TEI permet de faire ressortir le sens
sémantique de chaînes de caractères mais c’est également un langage qui présentera toujours de la
même manière les informations contenues au sein des fichiers qu’il compose. Ce langage a été créé
par une communauté scientifique pour son propre usage et celle-ci le met à jour régulièrement ce
qui lui assure une grande stabilité et une évolution en fonction des besoins. Ces caractéristiques ont
en fait un choix idéal pour le projet OUTAGR.
Comme nous l’avons déjà évoqué, la TEI est une norme de codage des textes qui repose sur XML,
elle consiste en un balisage descriptif qui permet l’identification explicite de la structure sémantique
sous-jacente d’un document par le biais de balises3. Ce balisage répond à plusieurs contraintes, que
nous ne détaillerons pas dans ce mémoire, les principales étant l’imbrication d’éléments dans
d’autres éléments, le tout formant une structure en arborescence, et l’interdiction de faire se
chevaucher ces éléments. Ce langage comprend également des attributs qui permettent d’ajouter
des propriétés aux éléments, comme le présente l’exemple ci-dessous, issu du travail réalisé au cours
du stage, <placeName> et <rs> sont des éléments tandis que "type" est un attribut :
<placeName type="länder">Bade-Wurtemberg</placeName> <rs
type="harna">hipposandale</rs>
L’utilisation de la TEI dans le cadre de ce projet s’éloigne quelque peu de l’utilisation la plus
répandue de celle-ci dans le cadre de projets de recherche en sciences Humaines puisqu’il ne s’agit
pas d’une source primaire textuelle. Néanmoins ce genre de projet s’inscrit totalement dans un
autre mouvement de la TEI, celui qui tend vers une adaptation et une ouverture de la TEI en
1 Marjorie Burghart et Nicole Dufournaud, « Édition électronique de sources : XML et Text Encoding Initiative (TEI) à l'École », La lettre de L’EHESS [en ligne], n° 38, 2011, URL : http://lettre.ehess.fr/index.php?1530, consulté le 06/06/16 2 Lou Burnard, Qu’est-ce que la Text Intiative Encoding ? [en ligne], URL : http://books.openedition.org/oep/1297, consulté le 30/05/16. 3 Emmanuel Château, L’encodage des textes [en ligne], URL : http://www.desgodets.net/edition-des-cours/model, publié le 01/09/2013, consulté le 06/06/2016.
16
direction de nouveaux domaines1, ici l’archéologie. La TEI ayant été développée principalement
pour la description de textes anciens, son application au domaine de l’archéologie a toutefois
demandé une adaptation particulière notamment dans le choix des balises sur lequel nous
reviendrons plus loin dans ce rapport2. L’utilisation de cette norme d’encodage se justifie en grande
partie par l’apport de la TEI du point de l’enrichissement sémantique des textes, en effet comme
cela a déjà été mis en avant, c’est une des caractéristiques principales de cette grammaire.
Il y a quelques années le LAT a réalisé le projet ICERAMM3 qui ressemble en plusieurs
points au projet OUTAGR dans les buts qui ont été poursuivis, l’objectif était de mettre en ligne
une base de données sur la céramique Médiévale et Moderne et de la rendre consultable via un
instrument de recherche. Afin de réaliser cet instrument de recherche, l’équipe du LAT a choisi
d’utiliser principalement des scripts Jquery4 et des requêtes PHP5 permettant d’appeler des notices
contenues dans la base de données. L’outil de recherche fonctionne parfaitement mais implique un
encodage plus lourd et plus complexe que par le biais du XML. L’utilisation du XML et de la TEI
dans le cadre de ce projet rejoint un autre but qui est celui d’une démonstration des possibilités de
cette technologie dans le cadre d’un projet de recherche, non seulement du point de vue de son
intégration dans une chaîne de travail afin de mettre en place un instrument de recherche mais
également dans l’encodage de textes.
Comme cela a déjà été évoqué précédemment, le LAT n’ayant pas utilisé la technologie
XML-TEI auparavant, il n’a pas été possible de s’appuyer sur une chaîne de travail ou sur certains
fichiers modèles.
Concernant la structure du fichier XML, plusieurs options ont été envisagées, notamment
celle de se baser sur une structure en forme de liste, à l’image de l’encodage réalisé par les
Bibliothèques Virtuelles Humanistes du manuscrit Briefve declaration d’aulcunes dictions plus obscures
1 Lou Burnard, Qu’est-ce que la Text Encoding Intitiative ? [en ligne], OpenEdition Press, 2015 , URL : books.openedition.org/oep/1305, publié le 01/09/2013, consulté le 06/06/2016. 2 Voir p. 18. 3 http://iceramm.univ-tours.fr/bdrechercher.php 4 Le Jquery correspond à une librairie JavaScript, il possède la même puissance que le JavaScrip en utilisant des instructions plus simples, logiques et faciles à maintenir. URL : https://jquery.com/ 5 Le PHP ( PHP : Hypertext Preprocessor) est un langage informatique qui permet de mettre en place des pages web dynamiques.
17
contenües on quatriesme livre des faicts & dicts Heroïcques de Pantagruel 1. En effet la structure de l’inventaire
se présentant sous la forme d’une « liste » d’entrée de site, ce format aurait permis de respecter la
forme du document original, mais cela aurait alourdi le code, puisqu’au sein des entrées de site il
arrive que des listes aient été mises en place. Plus de détails sur ce point ont été donnés dans la
documentation créée au cours du stage2. Il a donc été fait le choix de considérer chacune des entrées
comme un paragraphe à part entière, ce qui a permis de bien les différents sites. Cet aspect est
également plus développé dans la documentation créée au cours du stage3.
Tout fichier TEI contient un TeiHeader, il s’agit de la partie contenant toutes les
métadonnées du fichier. Il est composé de parties principales, une première balisée avec
<fileDesc> qui contient toutes les informations bibliographiques propres au fichier encodé. Dans
le cadre du projet, ont été intégrés dans cette partie : le nom des auteurs, les personnes responsables
de l’encodage et de son contrôle, ou y ayant participé, à savoir mon tuteur de stage, Jorge Fins et
moi-même. Cette partie contient également la liste des institutions qui ont investi des ressources
humaines ou matérielles dans le projet, à savoir le Laboratoire Archéologie et Territoire, l’UMR
CITERES et l’Université François Rabelais. La mention des creatives commons4 pour la publication
d’œuvres en ligne est également présente. A noter qu’il a été choisi de rendre les données produites
dans le cadre du projet OUTAGR libres avec pour condition de ne pas en faire de réutilisation
commerciale et de les partager ou réutiliser dans les mêmes conditions que celles de leur mise en
ligne. Cette partie du header contient également les informations relatives à l’édition du fichier, qui
ont été faibles car cette édition XML-TEI constituait la première du document.
La deuxième partie concerne l’encodage du fichier, elle est balisée par <encodingDesc>,
elle décrit notamment les relations entre le document originel et celui encodé. Peu d’informations
ont été données dans cette partie car le document originel étant un fichier .docx écrit par Alain
Ferdière, peu de détails avaient à être donnés sur des aspects comme le respect des sauts de ligne
ou tout autre aspect éditorial. Cette partie contient également une description du projet.
La troisième partie correspond à la description des aspects non bibliographiques du texte
ainsi que le profil du contenu textuel et est entourée par <profileDesc>. Dans cette partie ont été
déclarées les différentes langues présentes au sein de l’inventaire (français, allemand, latin, anglais,
hongrois et tchèque) ainsi que les sujets qu’il aborde par le biais de la liste de mots-clés
1 http://xtf.bvh.univ-tours.fr/xtf/data/tei/B751131010_FR3370_suppl/B751131010_FR3370_suppl_tei.xml 2 Voir annexe 4, pp. 50-51. 3 Ibid. 4 Les creative commons correspondent à l’exposer des droits de diffusion dans le cadre d’une œuvre intellectuelle en fonction de quatre composantes : l’attribution, l’utilisation commerciale, le partage dans les mêmes conditions et la modification, qui donne 6 licences différentes.
18
correspondant aux autorités matières définies par la Bibliothèque Nationale de France. La dernière
partie concerne les révisions apportées au document au fil du temps, elle ne contient donc pas
beaucoup d’informations puisque, après encodage, il n’a pas été nécessaire de revenir sur ce fichier.
Le header du fichier a été réalisé grâce à la documentation fournie lors du stage XML-TEI
qui a été donnée au M2 PEEN par Jorge Fins, Mathieu Duboc, et Lou Burnard, ainsi que grâce à
la documentation des TEI-guidelines1.
Dans son article l’encodage des textes2, Emanuel Château met en avant que la production d’un
balisage descriptif passe par trois étapes : tout d’abord « la reconnaissance des éléments », qui
consiste à repérer les éléments qu’il sera nécessaire de baliser, puis la « sélection des balises » à
appliquer à ces éléments et enfin la « réalisation du balisage »3.
Dans le cadre de ce projet, les éléments qui ont été sélectionnés sont d’abord les outils
agricoles qui constituent le cœur du fichier à encoder. Puisqu’il n’existe pas de balise TEI servant
spécifiquement à entourer un élément archéologique, il a donc été choisi d’utiliser la balise <rs>
qui correspond à reference string et permet d’entourer « un nom générique ou une chaîne permettant
de s'y référer4 ». Comme cela a été avancé précédemment, Alain Ferdière a classé les différents
outils agricoles en plusieurs catégories, afin de conserver cette information, il a été choisi d’utiliser
un attribut "type" pour caractériser à quelle catégorie appartient chaque outil5. L’autre élément
essentiel qu’il a été nécessaire d’entourer par des balises sont les noms des sites archéologiques. Il
a été choisi une balise <placeName> qui sert à entourer « un nom de lieu absolu ou relatif6 » et,
afin de préciser la nature de ce lieu, un attribut type a été également utilisé. Concernant les autres
éléments de localisation des sites, qu’il s’agisse de villes, départements, länder, région, etc. la même
balise <placeName> a été utilisée ainsi qu’un attribut précisant la nature de l’élément7. Les
expressions latines ont également été traitées, en effet il en existe un certain nombre qui se rapporte
le plus souvent à des structures ou des outils notamment le terme villa ou ascia. Ces expressions
latines ont été entourées par une balise <foreign> qui permet de reconnaître « un mot ou une
expression comme appartenant à une langue différente de celle du contexte8 », la balise a été
1 http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/HD.html 2 Emmanuel Château, op. cit. 3 Ibid. 4 http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/ref-rs.html 5 Le détail des attributs utilisés pour caractériser les outils agricoles est donné dans l’annexe 4, pp. 47-48. 6 http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/ref-placeName.html 7 Le détail des attributs utilisés pour caractériser les 8 http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/ref-foreign.html
19
complétée par un attribut "xml:lang" qui permet de préciser à quelle langue appartient le terme
entouré, ainsi que par un attribut "rend" qui permet de passer l’expression en italique afin de
respecter le choix de l’auteur de mettre ces expressions sous cette police particulière. Enfin les
derniers éléments qui ont été considérés comme assez pertinents pour être entourés de balises sont
les dates et les périodes, qui sont nombreuses dans le cadre de ce projet. C’est la balise <date> qui
a été choisi, elle permet de contenir « une date exprimée dans n'importe quel format1 », ce qui
convient à la fois pour des dates fixes en utilisant un attribut "when" mais également pour des
périodes en utilisant les balises <notBefore> et <notAfter> qui permettent de donner les deux
dates extrêmes de la période. D’autres balises ont été utilisées dans le cadre de l’encodage, elles sont
détaillées dans la quatrième annexe de ce mémoire2.
Afin de gagner du temps dans l’encodage du fichier, il a été choisi de procéder à un pré-
encodage du fichier par le biais du logiciel Odette3. Cet outil mis en place par Frédéric Glorieux,
permet de passer un fichier d’un format .odt à un fichier XML-TEI. Cette opération permet donc
d’avoir un fichier « pré-encodé » en XML-TEI et de gagner un temps précieux pour la partie de
l’encodage. Il a donc suffit de transformer le fichier fourni par Alain Ferdière d’un format .docx à
un format .odt par l’intermédiaire d’un logiciel de traitement de texte pour ensuite pouvoir procéder
à cette étape.
Afin de rendre la partie de l’encodage encore plus efficace, de nombreuses expressions
régulières ont été utilisées. Elles correspondent à « une chaine de caractère permettant de décrire
un ensemble variable par l'utilisation d'une syntaxe précise4 », elles permettent de sélectionner et de
décrire des chaînes avec plusieurs inconnues ou variables en leur sein et sont très utiles pour réaliser
des opérations de « rechercher-remplacer » dans un texte en intégrant des inconnus et des variables
dans les chaînes de caractères à rechercher. C’est à cette fin qu’elles ont été utilisées dans le cadre
de l’encodage notamment pour baliser des outils archéologiques présents à de nombreuses reprises
dans l’inventaire. Néanmoins une grande part de l’encodage a dû être réalisée à la main car
impossible à traiter par le biais d’expressions régulières. De plus lorsque nous avons eu recours à
l’utilisation d’expressions régulières, il a été nécessaire de faire des vérifications sur l’intégralité du
fichier pour prévenir toutes formes d’erreurs. Cette phase d’encodage a été réalisée sur le logiciel
1 http://www.tei-c.org/release/doc/tei-p5-doc/fr/html/ref-date.html 2 Voir annexe 4, pp. 44-48. 3 http://obvil-dev.paris-sorbonne.fr/developpements/Odette/ 4 http://nliautaud.fr/wiki/articles/notepadpp/expreg#notepad_les_expressions_regulieres
20
Oxygen. Afin d’assurer un contrôle des balises utilisées lors de l’encodage le choix a été de fait de
mettre en place un schéma XML par le biais du logiciel Roma1. Un schéma XML permet de définir
une structure de fichier en imposant notamment les éléments et attributs qui sont acceptés au sein
d’un fichier afin que celui-ci soit valide, il est simplement relié au fichier par le biais d’un lien dans
le header. Le fait de créer un schéma permet un contrôle de l’encodage et de prévenir un certain
nombre d’erreurs concomitantes à un encodage manuel.
L’EAD a été utilisée dans le cadre de ce stage pour répondre aux besoins du logiciel Pleade
qui ne permet de traiter que des fichiers dans ce format ou au format EAC2. C’est pour cette raison
qu’il a été nécessaire d’intégrer au projet une procédure permettant le passage de la TEI à l’EAD.
L’EAD a été développée comme une DTD3 pour encoder les instruments de recherches
décrivant les fonds d’archives4. Elle se base sur la grammaire XML ainsi que sur la norme
ISAD(G)5. Ce langage fonctionne principalement sur un système d’emboitement de plusieurs
niveaux archivistiques6, en général un fond d’archives au sein duquel seront présents plusieurs
unités d’archivage et pièces d’archives. Dans le cadre du projet, il a été choisi de ne définir que trois
grandes unités de ce type, la première étant l’inventaire dans sa globalité, la deuxième étant un
ensemble d’entrées regroupées alphabétiquement et enfin une entrée de l’inventaire. La forme du
fichier à traiter dans le cadre du projet n’est pas exactement celle d’un fond d’archives mais elle s’en
rapproche par sa forme, il n’a donc pas été difficile d’adapter l’encodage EAD au fichier, même si
cela a impliqué une perte de données par rapport à la TEI.
1 http://www.tei-c.org/Roma/ 2 L’EAC correspond au format Encoded Archival Context, c’est également une DTD qui repose sur le langage XML au même titre que l’EAD. 3 Une DTD (Document Type Definition) a pour rôle de définir la structure d’un document en imposant un certain nombre de contraintes pour qu’un fichier soit considéré comme valide. 4 http://bonnespratiques-ead.net/guide/intro/autres-normes 5 La norme ISAD(G) correspond à la Norme générale et internationale de description archivistique, elle a été définie par le Conseil international des archives et comprend des règles de description à plusieurs niveaux, des éléments de descriptions, etc. 6 Voir annexe 3, elle présente un extrait de l’encodage de l’inventaire au format EAD.
21
Le passage d’un fichier TEI à un fichier EAD a été réalisé par le biais d’un filtre XSLT1,
cette technologie permet de créer une copie d’un fichier dans un autre format. Cette transformation
se fait de manière choisie et contrôlée dans sa structure et ses éléments. Le fichier de transformation
XSLT se construit sur la base de la grammaire XML en utilisant des templates2 qui vont permettre
de sélectionner les éléments qui vont être transformés en d’autres dans le document « clone ». Ils
permettent également de créer de nouveaux éléments et attributs et de les ajouter ou encore de
supprimer certains éléments du fichier d’origine pour qu’ils ne se retrouvent pas dans le fichier
« clone ».
Dans le cadre de ce projet, il a été choisi de réaliser deux filtres XSLT, l’un pour réaliser le
eadheader, qui a le même rôle que le header d’un fichier TEI mais dans le cas d’un fichier EAD, à
partir du teiHeader et une second concernant le reste du fichier c’est-à-dire la partie « texte » du
fichier TEI. Les deux fichiers EAD obtenus ont ensuite été réunis en un seul qui a constitué le
fichier de l’inventaire encodé en XML-EAD. Les enjeux de cette procédure résidaient dans la
nécessité de perdre le moins de données possibles et d’arriver à mettre en place un fichier EAD
qui soit valide et bien formé sans avoir à recourir à un encodage manuel.
Le langage EAD s’inspire en grande partie du langage TEI, néanmoins il n’a pas la même
précision et la même richesse que ce dernier, ainsi le passage de l’un à l’autre a induit une perte de
données substantielle mais incontournable. Il a notamment été impossible de garder une telle
richesse de données dans le header du fichier EAD tout simplement en raison de l’absence de
balises servant à spécifier certaines informations présentes dans le teiHeader c’est le cas notamment
concernant les métadonnées portant sur l’encodage TEI notamment les acteurs de celui-ci. Dans
le cas du corps du fichier, d’autres informations n’ont également pas pu être gardées au travers de
la transformation c’est particulièrement le cas pour la spécification du type d’outils auquel se
rapportaient les objets archéologiques agricoles entourés par des balises. Néanmoins il convient de
relativiser cette perte de données, en effet elle n’a pas nui à la création de l’outil de recherche, sa
précision et les capacités qui en étaient attendues3.
1 Extensible Stylesheet Language Tranformations 2 Les templates correspondent à des modèles de mises en forme. 3 Voir annexe 4, pp. 56-58. Un tableau a été construit mettant en regard les informations contenus dans le fichier TEI et dans le fichier EAD et précisant quelles informations ont pu être gardées ou non.
22
Le choix de l’utilisation du logiciel Pleade a été réalisé en amont du stage par l’équipe du
Laboratoire Archéologie et Territoire sur les conseils de l’équipe de la MRSH de Caen qui a fourni
une version retravaillée et optimisée du logiciel et qui possédaient une expérience de son utilisation.
Le logiciel Pleade est un logiciel libre permettant de diffuser des instruments de recherches
archivistiques dans une architecture Web1. A partir d’un fichier bien formé et valide au format EAD
ou EAC, le logiciel peut créer une arborescence utilisable dans un instrument de recherche. Pour
pouvoir fonctionner, Pleade s’appuie sur un serveur local, le logiciel SDX ainsi que le logiciel Java.
Conformément au conseil de la MSRH de Caen, il a été choisi d’utiliser Tomcat 7.02 qui est serveur
d’applications Java également libre. Le logiciel propose de nombreuses fonctionnalités qui
permettent de s’adapter à différents projets, notamment un outil de publication d’images
numérisées, la mise ne place d’un entrepôt OAI, la diffusion d’informations statiques sur un site
web3 … Dans le cadre du projet, l’outil de publication d’images numérisées (Navimages) n’a pas
été utilisé mais plusieurs pages statiques ont été ajoutées. Le logiciel Pleade constitue à la fois la
partie back-office et front-office du site, c’est-à-dire que l’interface est la même pour l’utilisateur et
l’administrateur, ainsi les modifications réalisées sur celui-ci notamment concernant l’interface et le
graphisme ont été réalisées directement depuis le logiciel Pleade qui constituera le rendu du site
une fois sa publication réalisée. Dans le cadre du projet il a été choisi la version 3.4 de Pleade qui a
été optimisée par l’équipe de la MRSH de Caen.
Une difficulté a été rencontrée au cours du stage concernant la manipulation du logiciel
Pleade. Il s’agit de l’absence de documentation sur son utilisation, en effet une seule documentation
est accessible sur ce logiciel et concerne la version 2.0 du logiciel, elle est donc obsolète et
inutilisable dans le cas de la manipulation d’une version 3.4 de ce même logiciel. Néanmoins cette
difficulté a pu être contournée par l’utilisation à la fois de listes de diffusion sur le logiciel et l’aide
de la MRSH de Caen, nous reviendrons sur ce point dans le prochain chapitre.
1 http://pleade.org/ 2 http://tomcat.apache.org/ 3 http://pleade.org/fr/documentation/descriptions/index.html
23
La publication de document via le logiciel Pleade est assez simple puisqu’elle se fait de
manière totalement automatique, il est donc très aisé d’arriver à créer un instrument de recherche
fonctionnel1. Néanmoins la personnalisation de l’interface de l’instrument de recherche se fait au
prix de la manipulation des fichiers informatiques en divers langages. La personnalisation des
menus se fait par exemple à partir d’un fichier .xconf qui se base sur une grammaire XML. La
modification de ces fichiers a permis d’intervenir sur le fonctionnement de l’outil de recherche en
personnalisant notamment les menus présents au sein de la page d’accueil, en retirant certains liens
vers des pages présentes par défaut au sein du site et en rajoutant des liens à partir d’entrées du
menu vers de nouvelles pages statiques créées spécifiquement pour le projet.
Nous avons choisi d’ajouter plusieurs pages statiques à l’instrument de recherche afin de le
documenter et de l’enrichir, ces pages statiques correspondent aux fichiers fournis par Alain
Ferdière et concernent la description du but et de l’ambition du travail qu’il a réalisé, ainsi qu’une
annexe portant sur l’outillage agricole miniature retrouvé en contexte funéraire. En plus de cela,
plusieurs autres fichiers ont été rajoutés concernant notamment la création de l’outil de recherche,
des informations sur le projet et le Laboratoire Archéologie et Territoires. Tous ces fichiers ont dû
être encodés au format XHTML2 pour être intégrés à l’instrument de recherche.
Concernant l’aspect purement graphique de l’interface du site, elle a été modifiée en
travaillant les fichiers CSS intégrés au logiciel. Les CSS, Cascading StyleSheet, permettent de définir
l’apparence de documents HTML ou XML3 qui sont donc constitutifs de l’instrument de recherche.
L’aspect général du site a été retravaillé, notamment en ajoutant les logos propres aux institutions
ayant participé au projet.
1 La procédure qui a été suivie pour la publication de document par le biais de Pleade est détaillée au sein de la quatrième annexe aux pages 60 et 61. 2 Le XHTML, Extensive est un format qui consiste en une transposition de l’HTML en XML, il s’écrit donc avec des composants du langage HTML tout en respectant les principes du XML. 3 http://www.w3schools.com/css/
24
Chapitre troisième : Conduite du projet et perspectives
d’exploitation en humanités numériques
La gestion de projet a été un autre élément central du stage réalisé au sein du LAT à côté
de tous les choix techniques et leurs réalisations. Le projet abordant des aspects nouveaux pour
l’équipe de recherche, comme nous l’avons montré précédemment, il était nécessaire de prendre
du recul sur celui-ci, de s’appuyer sur d’autres acteurs des humanités numériques mais également
de laisser un héritage fort de ce projet afin qu’il serve pour d’autres.
Comme nous l’avons déjà présenté plus en amont de ce mémoire, la mission de stage
consistait en l’édition électronique et la mise en ligne de l’inventaire via le logiciel libre PLEADE.
Afin de visualiser l’objectif du stage concernant le rendu qui pouvait être espéré ainsi que
les possibilités du logiciel Pleade, un état de l’art a été réalisé. Plusieurs sites et outils de recherche
réalisés à partir de ce logiciel ont été consultés notamment le programme Nummus1 réalisé par la
MRSH de Caen qui a donné lieu à la mise en place d’un outil de recherche pour consulter une
banque de données portant sur les monnaies découvertes lors de fouilles archéologiques sur le
territoire normand2. Le site europeangardens.eu3 mis en place par la MRSH de Caen et l’Université
de Basse-Normandie, qui a pour but le recensement de toutes les sources d’archives et d’inventaires
publiques et privées relatives à l’art des jardins, a également été relevé lors de cet état de l’art.
Dans le cadre du projet OUTAGR, l’objectif a été fixé d’obtenir un outil utilisable et
fonctionnel, c’est-à-dire un site qui permette à la fois l’accès direct à la base de données sous la
forme d’une arborescence, comme le propose le logiciel, ainsi que la possibilité d’interroger cette
1 https://www.unicaen.fr/crahm/Nummus/pages/fonds.html 2 https://www.unicaen.fr/crahm/Nummus/pages/infos.html 3 http:// http://europeangardens.eu/inventories/fr/
25
base par le biais de requêtes. Ces requêtes se font soit par des recherches simples ou grâce à une
recherche avancée qui nécessite le remplissage d’un formulaire de recherche.
A la suite de l’état de l’art et après avoir eu une vision claire de l’objectif à atteindre dans le
cadre du stage, il a été nécessaire de dégager les différentes étapes nécessaires afin d’atteindre cet
objectif. Une méthodologie de travail par étape avec plusieurs vérifications qui conditionnent le
passage à la suivante a donc été mise en place. Ces étapes ont été dégagées comme suit :
1) Mise en place du cheminement entre le fichier original jusqu’au traitement par PLEADE
2) Choix des balises TEI à utiliser pour l’encodage avec à la fois volonté d’encoder
seulement les informations nécessaires au projet afin de ne pas encoder à outrance le
fichier dans des cas où les informations ne seraient pas utiles.
3) Mise en place d’un header spécifique pour le LAT
4) Mise en place d’un schéma spécifique pour le projet avec l’idée qu’il pourra être réutilisé
par la suite
5) Encodage d’un échantillon de l’inventaire à des fins de test.
6) Choix des balises EAD à utiliser
7) Mise en place d’un filtre XSLT pour passer de la TEI à l’EAD
8) Encodage en TEI de la bibliographie
9) Encodage en TEI de l’inventaire
10) Passage de l’inventaire au format EAD par le biais du filtre XSLT
11) Mise en place du site par le biais du logiciel Pleade
12) Intégration de pages statiques sur le site
13) Travail de l’interface graphique du site
14) Mise en ligne du site sur un serveur de l’université
Plusieurs vérifications et mises en place ont été réalisées, notamment concernant la
vérification du choix des balises TEI et EAD par le biais de rendez-vous avec Jorge Fins, tuteur
pédagogique du stage, des contrôles de l’encodage TEI de la bibliographie et de l’inventaire ainsi
qu’un contrôle de l’inventaire encodé en EAD mais également des contrôles de l’encodage des
fichiers statiques en XHTML grâce à des logiciels vérifiant la validité de ceux-ci.
A ces différentes étapes a été associé un calendrier avec le temps approximatif de chacune
des étapes. Bien que les objectifs du stage aient été remplis, le calendrier prévisionnel n’a pas
toujours été suivi suite notamment en raison de problèmes techniques concernant l’installation d’un
serveur Tomcat et de Pleade, problèmes qui ont allongé certaines étapes, ou encore en raison du
fait qu’il ait été difficile d’estimer le temps nécessaire pour s’auto-former sur plusieurs langages et
outils utilisés durant le stage.
26
Un certain nombre de logiciels et de langages ont été nécessaires à la bonne réalisation de
toutes les étapes du projet, certains étaient déjà maîtrisés avant le début du stage grâce aux
enseignements du M2 PEEN, c’est le cas du langage XML-TEI maitrisé par le biais d’une formation
poussée incluse dans le cours portant sur les humanités numériques réalisé notamment par Jorge
Fins et Mathieu Duboc. C’est pareillement le cas concernant les langages HTML et CSS, qui ont
été appris grâce aux cours d’édition internet dispensé par Alexandre Roulois. Il en va de même
pour la maîtrise du logiciel Oxygen qui a été maitrisé grâce à la formation XML-TEI évoquée
précédemment. Enfin il faut noter que le projet a nécessité l’utilisation du logiciel Tomcat, qui est
un générateur de serveur local, qui a pu être utilisé grâce à la maîtrise de cette technologie à la suite
du cours d’Alexandre Roulois au M2 PEEN.
A l’inverse, plusieurs langages qui ont été utilisés dans le cadre de ce projet n’étaient pas
maîtrisés au début du stage, il a donc été nécessaire de procéder à une autoformation. Ça a été le
cas notamment pour l’EAD, même si comme nous l’avons évoqué précédemment ce langage n’a
pas été utilisé dans le cadre d’un encodage manuel mais simplement comme langage de sortie après
l’utilisation du filtre XLST. Néanmoins il était absolument essentiel de le maîtriser dans sa structure
et son fonctionnement pour être en capacité de choisir les balises de ce langage qui devraient
correspondre à celles utilisées dans le fichier TEI et éventuellement rajouter des éléments qui
viendraient à manquer. Cette autoformation été en grande partie réalisée grâce au site internet
http://bonnespratiques-ead.net/ au sein duquel existe un « guide des bonnes pratiques1 » qui
détaille très précisément et clairement la logique et l’utilisation du langage XML-EAD. Ce site a été
mis en place par un ensemble de professionnels des bibliothèques et des archives et s’adresse aux
professionnels du domaine ayant besoin de cette technologie.
Le langage XSL avait été abordé au cours de la formation XML-TEI dispensé au M2 PEEN
mais sa maîtrise n’était pas suffisante pour répondre au besoin du projet, à savoir réaliser un filtre
XSLT qui soit capable de transformer le fichier de l’inventaire encodé en XML-TEI en un format
XML-EAD. Il a donc été nécessaire de passer par une phase d’autoformation et de
perfectionnement dans ce langage. Cela a été rendu possible grâce à la documentation et aux
exemples fournis au cours de la formation XML-TEI, mais également grâce à plusieurs ressources
1 http://bonnespratiques-ead.net/guide
27
internet, notamment la documentation issue d’une formation dispensée par Lou Burnard à Lyon
en 2011 sur ce sujet, qui a été mise en libre accès1. Plusieurs guides et tutoriels sur le sujet ont
également été utilisés, parmi lesquels il est possible de citer une documentation émanant de
l’université Paris-Diderot2 ou encore une autre réalisée par Emmanuel Lazinier, ingénieur
informatique spécialiste du XML, sur le sujet3.
Concernant le logiciel Pleade, comme cela a été rapidement abordé précédemment, il n’a
pas été possible de se former par le biais de la documentation mise à disposition par les créateurs
du logiciel car celle-ci apparaît être périmée par rapport à la version choisie dans le cadre du stage,
il a fallu s’appuyer sur d’autres acteurs des humanités numériques pour acquérir les compétences
nécessaires à son utilisation.
La mobilisation d’un réseau d’acteurs des humanités numériques a été nécessaire dans le
cadre du projet à la fois pour obtenir des informations sur certaines technologies, comme ce fut le
cas pour Pleade, mais également pour procéder à des vérifications sur les choix effectués ainsi que
pour recevoir des conseils sur les méthodes à adopter. Ces acteurs des humanités numériques
prirent à la fois la forme de personnes appartenant à un réseau de connaissance mais également
celle de communautés en ligne et de listes de diffusions.
Pour reprendre le cas du logiciel Pleade, pour pallier au manque d’informations de la part
des créateurs du logiciels sur son utilisation, il a été nécessaire de contacter et de travailler avec
Pierre-Yves Buard, responsable d’édition électronique aux Presses Universitaires de Caen, qui fait
notamment partie de l’équipe qui nous a fourni une version optimisée du logiciel et qui travaille
avec le LAT sur plusieurs projets. M. Buard a été connu par le biais des cours qu’il a dispensé à la
promotion des masters 2 PEEN de l’année 2015-2016 mais également lors d’un atelier portant sur
le logiciel XMLmind XML Editor4 qui a eu lieu au Centre d’Études Supérieures de la Renaissance
le 26 avril 2016 et auquel j’ai eu l’opportunité de pouvoir participer durant mon stage. Un ensemble
d’échanges ont eu lieu avec Pierre-Yves Buard au sujet de l’utilisation du logiciel Pleade par courrier
électronique mais également par le biais d’un échange téléphonique. Afin de prendre contact avec
1 http://tei.oucs.ox.ac.uk/Talks/2011-05-lyon/xslt-intro.pdf 2 https://www.irif.univ-paris-diderot.fr/~carton/Enseignement/XML/Cours/XSLT/index.html 3 http://xml.chez.com/xslt/ 4 http://www.xmlmind.com/xmleditor/
28
d’autres utilisateurs de Pleade, j’ai également utilisé la liste de diffusion « pleade-users »1 qui m’a
permis de poser des questions à l’ensemble de la communauté d’utilisateurs de ce logiciel.
Dans le cadre du stage, j’ai également procédé à l’inscription à la liste de diffusion des
utilisateurs de l’EAD2 et de la TEI3. Concernant ces deux langages, j’ai également pris contact avec
Jorge Fins, ingénieur à la MSH Val-de-Loire, sur des questions relatives à la TEI et l’EAD,
notamment pour effectuer avec lui des phases de vérification quant au choix des balises dans l’un
et l’autre des langages mais également sur certains aspects techniques quant à l’encodage. M. Fins,
en plus d’être tuteur pédagogique de mon stage, a aussi assuré plusieurs cours durant l’année auprès
des M2 PEEN.
1 https://lists.sourceforge.net/lists/listinfo/pleade-users 2 http://bonnespratiques-ead.net/user/1634/edit 3 https://groupes.renater.fr/sympa/info/tei-fr
29
L’un des objectifs du stage, comme cela a déjà été avancé, était de fournir une expérience
au LAT dans l’utilisation de plusieurs technologies notamment la TEI. Ainsi il a été décidé de la
mise en place de plusieurs livrables, notamment un teiHeader.
Comme nous l’avons évoqué précédemment, l’encodage TEI de l’inventaire a nécessité la
mise en place d’un teiHeader, essentiel à la création de tout fichier utilisant cette grammaire. En
plus de celui qui a été créé et intégré au fichier correspondant à l’inventaire, un second header a été
réalisé durant le stage. Ce second header est identique à celui qui a été utilisé, néanmoins il ne
contient quasiment aucune métadonnée à proprement parler mais seulement les balises qui servent
à les caractériser, mise à part certaines informations concernant l’institution émettrice du fichier qui
correspond donc au LAT. Un certain nombre de commentaires précisant quel type de métadonnées
sont à préciser en fonction de ces balises ont également été incorporées au fichier pour permettre
à un utilisateur qui ne soit pas expert en XML-TEI de pouvoir le manier. Ce fichier a bien sûr pour
ambition d’être un « modèle » pour tout autre projet qui nécessiterait la réalisation de fichier TEI.
A côté de ce header, le schéma XML utilisé dans le cadre du projet a également été réalisé
avec l’idée de pouvoir être réutilisé dans d’autres projets. En plus du fichier contenant ce schéma,
qui est donc au format Relax NG Compact Syntax Schema, un second fichier au format XML a
également été conservé, celui-ci permet de repartir du schéma tel qu’il a été défini dans le logiciel
Roma1. L’idée est que dans le cadre d’un autre projet, il sera possible de réutiliser ce schéma ou de
l’adapter en fonction des besoins du projet en le prenant comme base et en le modifiant en utilisant
le fichier XML et le logiciel Roma.
Afin que le stage que j’ai réalisé ne reste pas qu’un simple travail limité dans le temps mais
qu’il puisse également s’implanter au sein LAT, il m’a été demandé de produire un document
résumant tout le protocole suivi dans le cadre du projet OUTAGR2. Ce livrable est certainement
le plus important, dans le cadre de mon travail ainsi que pour le laboratoire, car il contient à la fois
une expérience mais également des détails techniques sur l’utilisation des technologies dans le cadre
1 http://www.tei-c.org/Roma/ 2 Voir annexe 4.
30
du stage et donne également un aperçu de leurs autres applications potentielles. Il n’a pas pour but
d’être exhaustif sur l’utilisation et le principe des langages informatiques et logiciels qui ont été
utilisés au cours du stage, mais un soin particulier a été apporté au fait de renvoyer à un nombre
important de documentations sur ces différents éléments ainsi qu’à d’autres exemples de projets1.
Ce travail a été construit au fur et à mesure du stage, il présente à la fois les choix qui ont été réalisés
mais également les autres possibilités qui se sont présentées ainsi que les principaux problèmes et
limites qui se sont imposées. Ce rapport a également pour but d’être utilisé comme une base pour
faire évoluer l’application mise en place durant le stage après celui-ci.
Pour communiquer sur la réalisation du projet au sein de l’équipe de recherche, il m’a été
demandé de venir le présenter au cours d’un Conseil d’Équipe réunissant les membres permanents
du LAT, à la fois des chercheurs mais également des ingénieurs et techniciens. Le but était de
présenter à la fois le résultat du projet OUTAGR, à savoir le site et de l’outil de recherche
permettant l’exploitation de l’inventaire mis en ligne sur le serveur de l’université, mais également
les technologies innovantes pour le laboratoire qui ont été employées et à ouvrir sur les autres
possibilités qu’elles offrent dans le cadre de projets en laboratoire de recherche.
Les différents éléments évoqués dans cette partie, à savoir les fichiers réutilisables et la
documentation sur le protocole suivi, vont avoir un impact direct sur le laboratoire puisque
plusieurs de projets incorporant la TEI sont déjà lancés ou en cours de préparation. C’est le cas par
exemple d’une publication portant sur les fouilles de Rigny2 qui est en cours de réalisation au format
TEI par l’équipe de la MRSH de Caen et également concernant le rapport de fouilles du chantier
de Marmoutier de l’année 2016-2017 qui sera publié grâce à une édition XML-TEI en incorporant
un volet webmapping.
1 Voir annexe 4, pp. 63-64. 2 Cette fouille concerne un centre paroissial médiéval, elle a été réalisée entre 1987 et 1999 par le Laboratoire Archéologie et Territoires et a notamment permis la mise au jour de deux églises antérieures en dessous de celle fouillée. URL : http://www.notredamederigny.fr/histoire/
31
Le bilan du projet est globalement très positif puisque les objectifs qui avaient été fixés en
amont de celui-ci ont été remplis. Malgré des difficultés techniques qui ont parfois induit une perte
de temps, le projet a pu s’adapter et remplir les conditions de son succès. Il a permis la mise en
place d’un outil de recherche fonctionnel permettant l’exploitation de la base de données que
constitue l’inventaire d’Alain Ferdière.
Figure 2 : page d’accueil du site publié dans le cadre du projet
La publication du site sur le serveur de l’université a permis de le rendre accessible dans le
cadre d’une première phase de test. Le site donne à la fois accès aux données de l’inventaire sous
forme d’une arborescence1 mais également par le biais d’une barre de recherche simple ainsi qu’un
formulaire de recherche, l’accès aux données est donc parfaitement assuré. Le formulaire de
recherche permet notamment de réaliser des recherches croisées au sein de l’inventaire2, c’est un
des aspects qui a été rendu possible grâce à l’utilisation de la technologie XML.
1 Figure 3 2 Figure 4
32
Figure 3 : présentation de l’arborescence de l’inventaire telle qu’elle est accessible au sein du site
Figure 4 : formulaire de recherche avancée tel qu’il est accessible sur le site
33
Le site comporte plusieurs pages statiques qui correspondent aux fichiers annexes qui ont été
fournis au début du stage concernant la réalisation de l’inventaire1 et une annexe sur l’outillage
miniature en contexte funéraire. Ces deux éléments ont été ajoutés au site afin de l’enrichir au
maximum.
Figure 5 : page statique du site concernant la réalisation de l’inventaire par Alain Ferdière
Cette mise en place est passée par une édition XML-TEI qui a été documentée et qui a
donné lieu à la création de plusieurs livrables : des fichiers informatiques pouvant être intégrés dans
d’autres projets ainsi qu’un fichier présentant le protocole suivi. Le logiciel Pleade a été
correctement intégré dans cette chaîne de production et a permis les résultats escomptés.
Plusieurs éléments pourraient être ajoutés afin d’améliorer l’application, par exemple l’ajout
d’un système de géolocalisation des sites archéologiques par le biais d’une carte interactive ou
encore l’ajout d’un système qui permettrait la recherche de termes archéologiques dans plusieurs
langues puisque le projet concerne des régions dans plusieurs pays d’Europe (notamment
l’Allemagne et la Suisse) et également pour donner une portée plus grande à cet outil. Enfin la
possibilité de Pleade d’intégrer des images et de réaliser une bibliothèque virtuelle pourrait être
l’occasion de réaliser une présentation des différents outils qui sont évoqués dans l’inventaire afin
de fournir aux visiteurs un support visuel.
1 Figure 5
34
Conclusion :
Le stage que j’ai réalisé au Laboratoire Archéologie et Territoires durant trois mois était
totalement en phase avec mes attentes quant à celui-ci, il m’a permis de découvrir le milieu des
laboratoires de recherche en étant confronté à la réalité du travail dans ce type d’institution. Il m’a
permis à la fois de mettre en place un projet innovant, d’en organiser la gestion, de le réaliser et
ainsi d’enrichir les compétences du laboratoire. Il a également rendu possible le fait de parfaire des
connaissances techniques acquises au cours de cette année universitaire dans le cadre du master 2
PEEN mais également d’en acquérir de nouvelles afin de pouvoir mener à bien le projet qui m’a
été confié. Le fait d’avoir réussi à remplir les objectifs du projet a été pour moi une grande réussite
professionnelle et personnelle. La documentation que j’ai produite pendant le stage ainsi que le
teiHeader et le schéma seront réutilisés dans d’autres projets incorporant la TEI. L’une des volontés
du Laboratoire Archéologie et Territoires est de poursuivre le mouvement engagé avec le stage
pour s’ouvrir à l’interopérabilité et d’exploiter cette technologie pour publier plus de
documentations et d’outils.
Le plaisir que j’ai eu à travailler dans le cadre d’un laboratoire de recherche et dans le cadre
des humanités numériques a confirmé mon goût pour ce milieu ainsi que mon projet professionnel
pour la suite.
35
Table des annexes :
Annexe 1 : Extrait de l’inventaire tel qu’il a été fourni par M. Ferdière en format .odt _ p. 36.
Annexe 2 : Extrait de l’inventaire après l’encodage en XML-TEI. _ p. 37.
Annexe 3 : Extrait de l’inventaire après la transformation en XML-EAD par le biais du filtre XSLT.
_ p. 38.
Annexe 4 : Manuel produit dans le cadre du stage. _ pp. 39-64.
36
Annexe 1 : extrait de l’inventaire au format .docx tel que fourni par Alain Ferdière
117 - *Bailleul-sur-Thérain “ Mont de César ” (Oise) : agglomération secondaire GR (?) :
a) - dans une cave GR (fouille Renet en 1878) : 1 clochette en fer (cf. COUTIL 1898-1921 :
185, n. 1) ;
b) - hors contexte, au Musée départemental de l’Oise (coll. Clérambault, inv. 52.178) : 1
mors à quatre anneaux (WOIMANT 1995 : 122).
[118 - *Bailly-en-Rivière (Seine-Maritime) : dépôt métallique de vaisselle de bronze, sans
outillage (WERNER 1938 : 266, n°18 ; cf. KÜNZL 1993 : 490-491, Fig. 8 ; cf. ROGERET 1997 :
117, av. biblio. compl.).]
119 - *Baldenheim (Bas-Rhin) : sépulture “ aristocratique ” de la fin du Ve s. ap. : riche mobilier,
dont 1 cloche en fer (FLOTTÉ et FUCHS 2000 : 162 (av. biblio.)).
120 - Bâle/Basel (BS, Suisse) : oppidum LTF puis agglomération secondaire :
a) - dans l’occupation du Ier s. av. de la « Gasfabrik » : 1 soc d’araire (FURGER-GUNTI et
BERGER 1980 : n°325 ; FELLMANN 1960 ; cf. FEUGÈRE, THAURÉ et VIENNE 1992 :
68, n°134 ; cf. MARBACH 2004b : 18, n°41soc) ; herminette (?) et haches à douille et à
emmanchement à oeil, parmi outils de travail du bois, et clavettes de moyeu (FURGER-
GUNTI et BERGER 1980 : Pl. 15 ; AMREIN et al. 2012 : 176 et Fig. 4.5) ; pour le soc
d’araire alongé, 1 clavette de roue et les outils pour le bois (haches à douille, 1 cognée)
(PERNET 2012 : Fig. 4.5) ;
b) - « Gasfabrik / Usine à Gaz » : dépôt LTF d’objets métalliques et de poterie, dont 1
phalère bombée (et autres pièces de harnachement ?) (HÜGLIN et SPICHTIG 2011) ;
c) - oppidum de « Munsterhügel » : 1 herminette militaire (dolabre) (BERGER et HELMIG
1991 : Fig. 10, 22 ; cf. DESBAT et MAZA 2008 : 246) ; des éléments de harnachement GR,
dt militaire (Katalog… 2008) ;
d) - contexte ? : 1 pendant de harnais (type Bishop 7A) (DESCHLER-ERB 1998b, av.
biblio.) ; et autres éléments de harnachement dont républicains (dont un pendant phalique
en os) (DESCHLER-ERB et al. 2008 : carte, Fig. 5 ; cf. POUX 2008 : 385-386, Fig. 58) ;
e) nécropole BE : 1 éperon (GIESLER 1978 : 46, n°39).
121 - *Balinghem “ Rue du Fort ” (Pas-de-Calais) : en surface : avec des monnaies (Ier-IIIe s.), 1
pendant de harnais, 1 passe-courroie de char (DELMAIRE 1994 : 106).
- Ballan-Miré : voir n° 2197
122 - *Balleray “ Champ d’Artet ” (Nièvre) : bâtiment d’une villa : 1 hipposandale (BIGEARD
1996 : 68).
- Balloy : voir n° 2228
123 - *Bambiderstroff (Moselle) : site indéterminé : 1 paire de force LTF (?) (LINCKENHELD
1933 : 10 ; cf. FLOTTÉ et FUCHS 2004 : 257).
124 - *Bandol “ Le Port ” (Var) : villa maritime, anciennement fouillée : 2 fers de bêches ((BRUN
1999 : 241, av. biblio.).
37
Annexe 2 : extrait de l’inventaire encodé en XML-TEI
<p xml:id="nailleul-sur-Thérain">117 - <placeName type="site_archeo">*Bailleul-sur-
Thérain</placeName> <placeName type="lieu-dit">« Mont de César »</placeName>
(<placeName type="departement">Oise</placeName>) : agglomération secondaire <date
notBefore="-0051" notAfter="0476"><choice><abbr>GR</abbr><expan>gallo-
romain</expan></choice></date> (?) :<lb/>
<list><item>a) - dans une cave <date notBefore="-0051"
notAfter="0476"><choice><abbr>GR</abbr><expan>gallo-romain</expan></choice></date>
(fouille Renet en 1878) : 1 <rs type="ani">clochette</rs> en fer (cf. COUTIL 1898-1921 : 185, n.
1) ;</item>
<item>b) - hors contexte, au Musée départemental de l’Oise (coll. Clérambault, inv. 52.178) :
1 <rs type="harna">mors</rs> à quatre anneaux (WOIMANT 1995 : 122).</item></list></p>
<p xml:id="baillyenriviere">[118 - <placeName type="site_archeo">*Bailly-en-
Rivière</placeName> (<placeName type="departement">Seine-Maritime</placeName>) : dépôt
métallique de vaisselle de bronze, sans outillage (WERNER 1938 : 266, n°18 ; cf. KÜNZL 1993 :
490-491, Fig. 8 ; cf. ROGERET 1997 : 117, av. biblio. compl.).]</p>
<p xml:id="baldenheim">119 - <placeName type="site_archeo">*Baldenheim</placeName>
(<placeName type="departement">Bas-Rhin</placeName>) : sépulture « aristocratique » de la
<date notBefore="0480" notAfter="0499">fin du Ve s. ap.</date> : riche mobilier, dont 1 cloche
en fer (FLOTTÉ et FUCHS 2000 : 162 (av. biblio.)).</p>
<p xml:id="balebasel">120 - <placeName type="site_archeo">Bâle/Basel</placeName>
(<placeName type="länder">BS</placeName>, <placeName
type="pays">Suisse</placeName>) : <foreign rend="i" xml:lang="la">oppidum</foreign> <date
notBefore="-0150" notAfter="-0027"><choice><abbr>LTF</abbr><expan>La Tène
Finale</expan></choice></date> puis agglomération secondaire :<lb/>
<list><item>a) - dans l’occupation du <date notBefore="-0099" notAfter="-0001">I<hi
rend="sup">er</hi> s. av.</date> de la « Gasfabrik » : 1 <rs type="instrAra">soc d’araire</rs>
(FURGER-GUNTI et BERGER 1980 : n°325 ; FELLMANN 1960 ; cf. FEUGÈRE, THAURÉ et
VIENNE 1992 : 68, n°134 ; cf. MARBACH 2004b : 18, n°41soc) ; <rs
type="outAgri">herminette</rs> (?) et <rs type="bois">haches</rs> à <rs
type="outAgri">douille</rs> et à emmanchement à oeil, parmi outils de travail du bois, et <rs
type="charr">clavettes de moyeu</rs> (FURGER-GUNTI et BERGER 1980 : Pl. 15 ; AMREIN
<hi rend="i">et al.</hi> 2012 : 176 et Fig. 4.5) ; pour le <rs type="instrAra">soc d’araire</rs>
alongé, 1 <rs type="charr">clavette de roue</rs> et les outils pour le bois ( <rs
type="bois">haches</rs> à <rs type="outAgri">douille</rs>, 1 <rs type="bois">cognée</rs>)
(PERNET 2012 : Fig. 4.5) ;</item>
<item>b) - « Gasfabrik / Usine à Gaz » : dépôt <date notBefore="-0150" notAfter="-
0027"><choice><abbr>LTF</abbr><expan>La Tène Finale</expan></choice></date> d’objets
métalliques et de poterie, dont 1 <rs type="harna">phalère</rs> bombée (et autres pièces de
harnachement ?) (HÜGLIN et SPICHTIG 2011) ;</item>
38
Annexe 3 : Extrait de l’inventaire encodé en XML-EAD
<p>117 - <name>*Bailleul-sur-Thérain</name>
<geogname>« Mont de César »</geogname> (<geogname>Oise</geogname>) :
agglomération secondaire <date normal="0476/-0051">GR</date> (?) :<lb/>
<list>
<item>a) - dans une cave <date normal="0476/-0051">GR</date> (fouille Renet en 1878) : 1
<subject>clochette</subject> en fer (cf. COUTIL 1898-1921 : 185, n. 1) ;</item>
<item>b) - hors contexte, au Musée départemental de l’Oise (coll. Clérambault, inv. 52.178) :
1 <subject>mors</subject> à quatre anneaux (WOIMANT 1995 : 122).</item>
</list>
</p>
</scopecontent>
</c02>
<c02 id="baillyenriviere">
<did>
<unittitle>*Bailly-en-Rivière</unittitle>
</did>
<scopecontent>
<p>[118 - <name>*Bailly-en-Rivière</name> (<geogname>Seine-Maritime</geogname>) :
dépôt métallique de vaisselle de bronze, sans outillage (WERNER 1938 : 266, n°18 ; cf. KÜNZL
1993 : 490-491, Fig. 8 ; cf. ROGERET 1997 : 117, av. biblio. compl.).]</p>
</scopecontent>
</c02>
<c02 id="baldenheim">
<did>
<unittitle>*Baldenheim</unittitle>
</did>
<scopecontent>
<p>119 - <name>*Baldenheim</name> (<geogname>Bas-Rhin</geogname>) : sépulture
« aristocratique » de la <date normal="0499/0480">fin du Ve s. ap.</date> : riche mobilier, dont
1 cloche en fer (FLOTTÉ et FUCHS 2000 : 162 (av. biblio.)).</p>
</scopecontent>
</c02>
<c02 id="balebasel">
<did>
<unittitle>Bâle/Basel</unittitle>
</did>
<scopecontent>
<p>120 - <name>Bâle/Basel</name> (<geogname>BS</geogname>,
<geogname>Suisse</geogname>) : <emph render="italic">oppidum</emph>
<date normal="-0027/-0150">LTF</date> puis agglomération secondaire :<lb/><list>
39
Annexe 4 : protocole du projet OUTAGR réalisé durant le stage
Réalisé par Rémi Ossant sous la direction d’Olivier Marlet, ingénieur d’étude au CNRS.
mars 2016 – juin 2016
40
Sommaire
I. XML-TEI : choix et mise en place
a) XML-TEI : enjeux et définitions
b) Du document .docx à un fichier primaire en TEI
II. Le balisage en XML-TEI
a) Le choix des balises
b) Structure globale du fichier
c) La création d’un Header et d’un schéma XML adapté au projet
d) L’utilisation des expressions régulières
e) La bibliographie
III. Le passage en EAD
a) Le langage EAD
b) Le choix des balises EAD
c) La mise en place d’un filtre XSLT pour assurer le passage en EAD
IV. Le logiciel PLEADE et son utilisation
a) Intérêt du logiciel
b) Installation
c) Utilisation pour l’édition d’un outil de recherche
1. La publication des fichiers
2. La création de l’outil de recherche, la modification de son interface graphique
Bibliographie :
EAD
Dossiers d’encodage issus d’autres projets
PLEADE
Exemples de site mis en place avec PLEADE
TEI
Dossiers d’encodage issus d’autres projets
XSLT
41
Introduction
Ce document a été créé dans le cadre d’un stage de Master 2 réalisé au sein du Laboratoire
Archéologie de l’UMR CITERES sous la direction d’Olivier Marlet et qui a eu lieu du 7 mars au
10 juin 2016. Sa mission consistait en la création d’un instrument de recherche visant à exploiter
un inventaire des sites de Gaule contenant de l’outillage antique.
Le corpus de document qui a été l’objet de travail du stage a été créé par Alain Ferdière,
professeur honoraire des universités et membre associé du LAT. Cet ensemble de documents se
compose d’un inventaire des sites archéologiques de Gaule comportant de l’outillage agricole, une
bibliographie et plusieurs autres documents annexes de quelques pages notamment un fichier Excel
comportant les différents types d’outils présents dans l’inventaire classés. Le but du stage était de
partir du fichier de l’inventaire, originellement en .docx, de le transformer en un fichier XML-TEI
bien formé et valide puis, par le biais d’un filtre XSLT, de le passer au format XML-EAD et enfin
de traiter ce fichier avec le logiciel PLEADE afin d’en faire un instrument de recherche utilisable.
PLEADE est un logiciel libre qui permet à partir d’un fichier bien formé et valide en XML-EAD
de créer un outil de publication, de consultation et de recherche de documents et d'archives
numériques1.
Dans cette documentation, un certain nombre de langages informatiques seront abordés,
elle n’a pas pour vocation d’être exhaustive sur leurs possibilités et surtout pas sur le moyen de les
manipuler. Nous nous limiterons à une présentation succincte de leurs principes et de leurs
possibilités dans le cadre de ce projet. Ce document contient néanmoins un nombre important de
liens et de références vers des sites ou des documentations en ligne portant sur ces langages ainsi
que leur manipulation. La grande majorité des manipulations qui ont été réalisées et qui sont
décrites dans ce document ont été faites par le biais du logiciel Oxygen XML Editor qui est un
logiciel non-libre mais qui propose néanmoins des licences d’évaluations gratuites2.
Le but de cette documentation est de présenter et d’expliquer le protocole qu’il a été choisi
d’adopter dans le cadre du stage mais également de présenter d’autres possibilités qui auraient pu
être adoptées ainsi que les principales difficultés qui se sont présentées.
1 Pour plus d’informations sur le logiciel et le télécharger : http://pleade.com/ et http://pleade.org/ 2 Pour télécharger le logiciel Oxygen XML Editor et obtenir plus d’informations sur celui-ci : https://www.oxygenxml.com/
42
I. XML-TEI : choix et mise en place
La TEI (Text Encoding Initiative) est une norme de codage de textes qui repose sur le XML
et qui a pour but de faciliter la création l’échange et l’intégration des données textuelles
informatisées. La TEI est un langage descriptif, il consiste donc en un balisage servant à nommer
et caractériser les composants d’une structure textuelle.
C’est un langage riche qui cumule trois avantages principaux qui en font le langage idéal
pour un projet du type de celui d’OUTAGR1. L’un des premiers intérêts de la TEI est qu’elle met
l’accent sur le sens du texte et non pas l’apparence de celui-ci, il permet donc un enrichissement
sémantique, en donnant un sens choisi à des chaînes de caractères. Une prise de décision quant à
l’encodage XML-TEI à utiliser est toujours une activité scientifique, impliquant systématiquement
un choix conscient. Le deuxième point sur lequel il convient d’insister est l’interopérabilité
qu’implique ce langage, un fichier encodé en TEI donnera le même aspect à l’information quel que
soit le logiciel qui est utilisé. Cela représente un avantage à la fois dans le partage des données mais
également dans le fait de pouvoir conserver un encodage à partir duquel il sera possible de partir
afin de publier un document dans un autre format ou pour le mettre à jour dans le cas d’une
évolution des langages informatiques. Enfin la TEI est gérée par une communauté scientifique
pour son propre usage et est développement constant, ce qui lui assure une grande stabilité.
Cette grammaire est plutôt destinée à l’encodage des textes mais elle peut être également
appliquée à toute forme de données numériques, aujourd’hui elle est utilisée dans une majorité de
cas pour l’édition électronique de sources et de textes anciens à l’image du travail réalisé par les
Bibliothèques Virtuelles Humanistes2 ou encore la MSHS de Caen3. De manière générale, la TEI
s’est très largement imposée comme le standard de fait dans le domaine de l’édition numérique à
caractère scientifique, en particulier pour la publication des sources primaires4.
Pour plus d’informations sur la TEI, ses principes et sa manipulation, consulter la bibliographie à
la fin de cette documentation.
La première étape pour passer du document primaire au format .docx, comme celui qui a
été fourni par M. Ferdière dans le cadre de ce projet, jusqu’à un fichier XML-TEI structuré et
encodé, est d’arriver à passer le fichier au format XML-TEI avec pour problématique essentielle
de ne pas perdre d’informations et en essayant d’arriver à un fichier le plus structuré et « pré-
encodé » possible. Quatre solutions ont été envisagées pour répondre à cela.
1 Ces éléments sont principalement tirés de la publication de Lou Burnard : Qu’est-ce que la Text Encoding Initiative [en ligne], URL : http://books.openedition.org/oep/1298, consulté le 30/05/16. 2 http://xtf.bvh.univ-tours.fr/xtf/search?type=tei 3http://www.unicaen.fr/recherche/mrsh/document_numerique/projets 4 http://www.desgodets.net/edition-des-cours/model
43
La première solution consiste simplement en l’import du texte depuis le fichier originel au
sein du logiciel Oxygen puis à procéder à l’encodage. Mais cette solution ne permet aucune
structuration et aucun pré-encodage, son intérêt est donc très limité.
Il est également possible d’utiliser le logiciel 7-zip et de passer le document originel d’un
format .docx au format .odt et ensuite de le décompresser. Un fichier .odt s’apparente à un dossier
composé de plusieurs documents XML zippés dont le fichier « content » qui contient le texte en
XML. Par le biais de cette méthode on obtient un fichier XML-TEI avec quelques balises mais
aucune structuration, ce qui rend le traitement et la lecture du fichier très difficile.
Une autre solution consiste à passer par l’utilisation d’un script XML depuis le logiciel
LibreOffice. Cette solution oblige à créer des feuilles XSLT pour l’import et l’export ainsi que
plusieurs feuilles de styles adaptées. Cette solution implique donc un travail préparatoire assez lourd
mais permettrait un gain de temps par la suite car le stylage aurait permis d’avoir un document
XML-TEI bien encodé et aurait simplement demandé quelques ajustements ainsi qu’une
vérification. Néanmoins le fichier originel étant très homogène dans le cadre du projet OUTAGR,
il aurait été nécessaire de créer des styles de caractères et non pas de paragraphes ce qui aurait
impliqué une opération de stylage longue et aurait certainement occasionné des erreurs qu’il aurait
fallu reprendre depuis le logiciel Oxygen. Il a donc été choisi de ne pas utiliser cette méthode dans
le cadre du projet.
La dernière solution, qui fut celle choisie au cours du projet, est d’utiliser le logiciel Odette,
qui a été développé par Frédéric Glorieux1. Ce logiciel permet de passer d’un fichier .odt à un fichier
XML-TEI de manière automatique. Le fichier qui est obtenu est balisé et structuré de manière très
lisible, un autre avantage est que l’encodage XML-TEI est fait de manière à respecter la mise en
page originale du document. Cette solution implique une reprise pour compléter l’encodage qui
n’est que partiel, mais l’emploi d’expression régulière permet un travail efficace sur le document.
II. Le balisage en XML-TEI
Comme évoqué précédemment, le choix des balises en XML-TEI relève d’un choix
scientifique, c’est grâce à cela que vont pouvoir être identifiés des éléments. Ainsi, avant de se
questionner sur les balises à utiliser, il convient de s’interroger sur les informations qui sont
importantes dans le corpus qui est l’objet de ce travail, afin de ne pas encoder à outrance et alourdir
inutilement le fichier. Dans le cadre du projet OUTAGR, il était important de pouvoir utiliser les
informations se rapportant aux différents outils présents sur les sites (avec la possibilité de pouvoir
différencier les grands types d’outillages), le nom des sites, les éléments de localisation des sites
mais également les éléments se rapportant à des notes, les périodes archéologiques évoquées, etc…
1 http://obvil-dev.paris-sorbonne.fr/developpements/Odette/
44
Concernant la mise en page, il a été choisi de respecter au maximum celle qui a été choisie
par l’auteur, ainsi les retours à la ligne ont été respectés notamment dans les cas où sont listés
plusieurs espaces dans un même site. Il en va de même pour les passages en italiques et en gras.
Par exemple, les renvois vers d’autres références au sein de l’inventaire sont notés sous la forme
« voir n°… », il a donc été choisi de l’entourer avec une balise <hi rend="b">. Le nom des sites
est également en gras, néanmoins il n’est pas nécessaire de l’entourer d’une balise spécifiquement
pour cela, ils sont déjà entourés avec une balise <placeName type="site_archeo"> et on utilisera
les CSS1 pour rendre ces éléments en gras dans le rendu final.
Les balises choisies et utilisées dans le cadre de ce projet sont répertoriées dans le tableau suivant,
il convient de se rapporter à l’index « outillage-vocabulaire.xsl » qui fait partie du dossier fourni par
A. Ferdière auquel il sera fait référence :
Abréviations
<choice><abbr>expressi
on abrégée
</abbr><expan>express
ion développée </expan>
</choice>
Ce balisage concerne les abréviations
utilisées couramment dans le texte (ex :
« frag. » = « fragment »). Cela vaut
également pour les noms de période.
Dates
<date>
@when="…" Cette balise est à utiliser pour des
mentions de dates simples, lorsqu’il s’agit
de baliser des périodes, se référer à cette
catégorie dans le tableau.
Entrée
alphabétique
<head><title>entrée
alphabétique</title></he
ad>
Les entrées alphabétiques de l’inventaire
sont considérées comme des entêtes des
<div>.
Liste
<list>
<item>entrée de liste
</item>
<item>entrée de liste
</item>
</list>
Cet élément <list> est utilisé notamment
pour baliser les énumérations de plusieurs
espaces au sein d’un même site
archéologique.
<placeName>
@type="pays"
Afin d’enrichir les données se rapportant
la localisation d’un site, elles sont balisése
indépendamment en utilisant un attribut
1 Pour plus d’informations sur les CSS, consulter : https://www.w3.org/Style/CSS/learning
45
Localisation
site
@type est utilisé pour spécifier de quel
type d’information de localisation il s’agit.
@type="departeme
nt"
@type="länder" Ce type a également été utilisé pour définir
les provinces suisses.
@type="arrondisse
ment"
Correspond à un arrondissement d’un
länder allemand.
@type="lieu-dit"
mise en
italique ou en
gras d’un
passage
<hi>
@rend="i"
@rend="b"
Cette balise est utilisée seulement pour
respecter la mise en forme de l’auteur sur
certains passages (pour la mise en italique
ou en gras). Néanmoins elle n’est utilisée
que dans le cas où ces éléments ne sont pas
balisés par un autre élément.
Nom du site
<placeName>
@type="site_arche
o"
L’attribut @subtype sert à définir le type
de site archéologique auquel appartient
chaque entrée d’après le fichier produit par
M. Ferdière. Cet attribut n’a pas était
utilisé sur l’intégralité de l’inventaire en
raison du fait que le fichier produit par M.
Ferdière ne concernait qu’une partie des
sites, le type des autres sites
archéologiques n’étant pas spécifié il n’a
pas été possible de procéder à l’encodage.
@subtype="agglo_s
ec"
Pour la catégorie : « Agglomération
secondaire/Agglomération-sanctuaire »
@subtype="arti" Pour la catégorie : « Artisanat (site d’–) »
@subtype="camp_
mili"
Pour la catégorie : « Camp militaire (et
autres sites militaires) »
@subtype="capi" Pour la catégorie : «Capitale de cité »
@subtype="cave" Pour la catégorie : « Cave »
@subtype=" chem" Pour la catégorie : « Chemin »
@subtype="chena" Pour la catégorie : « Chenal aménagé »
46
@subtype="depCul
t"
Pour la catégorie : « Cultuel (dépôt –) »
@subtype="depMet
"
Pour la catégorie : « Dépôt métallique »
@subtype="depSan
s"
Pour la catégorie : « Dépôt (de vaisselle
métallique ou autre) sans outillage »
@subtype="epav" Pour la catégorie : « Épave (de bateau) »
@subtype="etaGr" Pour la catégorie : « Établissement rural
GR »
@subtype="etaLtf" Pour la catégorie : « Établissement rural
LTF »
@subtype="etaSans
"
Pour la catégorie : « Établissement rural
(tous types), sans outillage »
@subtype="fermG
aul"
Pour la catégorie : «Ferme gauloise »
@subtype="fos" Pour la catégorie : « Fosse »
@subtype="foss" Pour la catégorie : « Fossé »
@subtype="grot" Pour la catégorie : « Grotte »
@subtype="gue" Pour la catégorie : « Gué »
@subtype="habit" Pour la catégorie : « Habitat/Habitation
(et voir Maison), dont urbain »
@subtype="mais" Pour la catégorie : « Maison/Domus »
@subtype="mine" Pour la catégorie : « Mine/Carrière »
@subtype="necroG
allo"
Pour la catégorie : « Nécropole (gallo-
romaine) »
@subtype="necro
Mero"
Pour la catégorie : « Nécropole
mérovingienne »
@subtype="oppi" Pour la catégorie : « Oppidum »
@subtype="port" Pour la catégorie : «Port, install. portuaires
»
47
@subtype="puit" Pour la catégorie : «Puits « funéraire » »
@subtype="remp" Pour la catégorie : «Rempart (et fossé
défensif) »
@subtype="rivi" Pour la catégorie : « Rivière (dans le lit de
–)/Fleuve »
@subtype="rue" Pour la catégorie : « Rue urbaine »
@subtype="sanct" Pour la catégorie : «Sanctuaire/Temple »
@subtype="sep" Pour la catégorie : «Sep (d’araire, en bois) »
@subtype="sepu" Pour la catégorie : «Sépulture/Tombe »
@subtype="silo" Pour la catégorie : «Silo »
@subtype="siteHau
t"
Pour la catégorie : «Site de hauteur »
@subtype="thea" Pour la catégorie : «Théâtre »
@subtype="ther" Pour la catégorie : «Thermes »
@subtype="tour" Pour la catégorie : «Tourbe/Tourbière »
@subtype="trouPo
t"
Pour la catégorie : « Trou de poteau (de
bâtiment) »
@subtype="tumu" Pour la catégorie : «Tumulus »
@subtype="villaGr
"
Pour la catégorie : «Villa (GR) »
@subtype="villaSu
b"
Pour la catégorie : «Villa suburbaine, ou
péri-urb. (et établiss. rural –) ; et péri-
agglo »
@subtype="villaVit
"
Pour la catégorie : «Villa viticole »
@subtype=" villLtf
"
Pour la catégorie : «Village LTF »
@subtype="vilChef
"
Pour la catégorie : «Ville/chef-lieu de
cité/capitale de cité »
@subtype="voieRo
m"
Pour la catégorie : « Voie romaine »
48
Nom
institution
<orgName>
Ex : INRAP, etc. Cet élément n’a
finalement pas été utilisé car considéré
comme pas utile dans le cadre du projet.
Noms en
langue
étrangère
<foreign> @lang="code ISO"
@rend="italic"
Ce balisage a été utilisé dans le cadre du
projet seulement pour spécifier les termes
en langue latine.
Outils
retrouvés
parmi le
mobilier
archéologique
des sites
<rs>
Les attributs @type se réfèrent aux
catégories établies par M. Ferdière dans
son fichier Outillage_Vocabulaire.xsl.
@type="instrAra" Pour la catégorie « instrument aratoire »
@type="atteTrai" Pour la catégorie « Attelage/Trait »
@type="outAgri" Pour la catégorie « Outils agricoles »
@type="ani" Pour la catégorie « Pour animaux »
@type="bois" Pour la catégorie « Travail du bois »
@type="charr" Pour la catégorie « Charronnerie »
@type="harna" Pour la catégorie « Harnachement /
ferrure »
@type="instrVete" Pour la catégorie « Instruments
vétérinaires »
Période
<date>
@notBefore
@notAfter
Les attributs @notBefore et @notAfter
correspondent au point de départ et au
terme d’une période (sous forme
normalisée comme suit : aaaa-mm-jj).
Le nom des périodes étant souvent
abrégées la forme complète du balisage
sera la suivante :
<date @notBefore="aaaa-mm-jj" @not
After="aaaa-mm-
jj"><choice><abbr>expression abrégée
</abbr><expan>expression développée
</expan> </choice></date>
49
Référence
bibliographiq
ue
<bibl>
Les références n’ont pas été balisées lors
de l’encodage XML-TEI, l’objectif étant
de faire le lien avec le document contenant
les références bibliographiques
développées. Il a été choisi d’utiliser des
scripts Jquery (réalisés par Olivier Marlet,
ingénieur d’étude au CNRS)
Remarque et
précision
<note>
@type="nb" Pour les sections de texte notées « NB ».
@type="gloss"
@place="foot"
Pour note de bas de page
Saut ligne
<lb/>
Cet élément est utilisé notamment lors des
énumérations des différents espaces
présents sur un même site, afin de
respecter la mise en forme originel du
fichier.
Séparation
des grands
ensembles
alphabétiques
<div>
@type=entree_alph
a
@n="1"
A titre d’exemple, l’extrait suivant :
27 - *Allain (Meurthe-et-Moselle) :
a) - “ La Sarrazinière ” : découverte d’une villa GR : 1 fer à cheval (Musée Lorrain ;
HAMM 2004 : 95, av. biblio.) ;
b) - “ Au Poirier Bécat ” : site GR (rural ?) : 1 mors de bride (HAMM 2004 : 96, av.
biblio.).
a été encodé de la manière suivante :
50
<p xml:id="allain">27 - <placeName type="site_archeo"
subtype="villaGr">*Allain</placeName>(<placeName type="departement">Meurthe-et-
Moselle</placeName>) :<lb/>
<list><item>a) - <placeName type="lieu-dit">« La Sarrazinière »</placeName> :
découverte d'une <foreign rend="i" xml:lang="la">villa</foreign> <date notBefore="-
0051" notAfter="0476"><choice><abbr>GR</abbr><expan>gallo-
romain</expan></choice></date> : 1 <rs type="harna">fer à cheval</rs> (Musée
Lorrain ; HAMM 2004 : 95, av. biblio.) ;</item>
<item>b) - <placeName type="lieu-dit">« Au Poirier Bécat »</placeName> : site
<choice><abbr>GR</abbr><expan>gallo-romain</expan></choice> (rural ?) : 1 <rs
type="harna">mors de bride</rs> (HAMM 2004 : 96, av. biblio.).</item></list></p>
La structure du fichier respecte les normes XML-TEI1, concernant la structuration globale
du fichier XML-TEI du projet, il a été choisi de procéder en attribuant une <div> incrémentée
avec un attribut @n pour chaque grande lettre de l’inventaire. Chaque entrée au sein de l’inventaire
constituera un paragraphe et sera donc entourée d’une balise <p>.
La structure du fichier aura donc la forme suivante :
<div type="entree_alpha" n="X">
<p>site archéologique 1</p>
<p>site archéologique 2</p>
<p>site archéologique 3</p>
1 Pour plus d’informations sur ce point consulter la bibliographie en fin de documentation
51
…
</div>
<div type="entree_alpha" n="Y">
<p>site archéologique 4</p>
…
</div>
…
Une autre solution aurait été de procéder par le biais d’une balise <list> puisque le
document se présente comme une suite organisée de sites archéologiques, comme cela a été réalisé
par les Bibliothèques Virtuelles Humanistes dans le cadre de l’encodage du manuscrit Briefve
declaration d’aulcunes dictions plus obscures contenües on quatriesme livre des faicts & dicts Heroïcques de
Pantagruel1. L’encodage de ce manuscrit de Rabelais a été fait de sorte que chaque terme du glossaire
a été encadré par la balise <label> après quoi suit la définition qui est encadrée par la balise
<item>. Ce procédé à l’avantage de bien reproduire la forme du texte original, néanmoins dans
le cadre du projet, il a été choisi de ne pas procéder de la sorte car au sein des entrées de sites
archéologiques on trouve parfois des listes (détaillant les différents espaces d’un site archéologique),
et même s’il est tout à fait possible d’intégrer une liste dans une autre au sein d’un encodage XML-
TEI, cela a pour conséquence d’alourdir le code. Ainsi le choix a été fait de procéder par paragraphe
successif dans le cadre de l’encodage de la structure du fichier XML-TEI.
Cette structure sous la forme du liste prendrait la forme suivante :
<list>
<item>site archéologique 1</item>
<item>site archéologique 2</item>
…
</list>
<list>
…
</list>
1 http://xtf.bvh.univ-tours.fr/xtf/data/tei/B751131010_FR3370_suppl/B751131010_FR3370_suppl_tei.xml
52
Le Laboratoire Archéologie et Territoire n’ayant, au moment de la réalisation du projet, pas
produit de document XML-TEI, il a été nécessaire de produire un header1 et un schéma XML2
spécifiquement pour le projet. Ces deux éléments ont été mis en place avec l’idée de pouvoir être
réutilisés dans de futurs projets nécessitant l’utilisation de TEI, moyennant néanmoins quelques
modifications propre à chaque projet surtout concernant le schéma XML.
Il a été choisi de créer un schéma et de ne pas utiliser un schéma TEIall3 en raison de la
taille du document, pour ainsi prévenir des erreurs d’encodage et rendre l’encodage plus léger et
également, dans la même problématique de produire un travail qui pourrait être réutilisé pour un
autre projet. Le header a été réalisé par le biais du logiciel Roma4 du site tei-c.org qui permet de
créer des schémas XML de manière totalement libre et avec une syntaxe correcte. Cela a permis de
réduire le nombre de balises, d’attributs ainsi que de valeurs qui sont autorisées seulement à celles
qui sont nécessaires au projet. Par exemple, toutes les balises se référant à la création de figures et
de tableaux ont été retirées tandis que des attributs @types et @subtypes particuliers ont été ajoutés
à la balise <rs> qui a été choisie pour entourer les outils archéologiques présents dans le fichier à
baliser le mobilier archéologique.
L’un des objectifs du projet était de mettre en relation l’inventaire de l’outillage avec la
bibliographie qui lui correspond. Pour cela, il a d’abord été nécessaire d’encoder la bibliographie
en XML-TEI. Le header et le schéma qui avait été créés précédemment pour l’inventaire ont été
réutilisés dans ce cadre. Cette mise en relation étant le principal objectif, il a été décidé dans un
premier temps de réaliser un encodage minimum sur la bibliographie.
Il a été décidé d’entourer l’ensemble de la référence avec une balise <p> à laquelle a été
ajoutée un attribut @id spécifique vers lequel il sera possible de pointer lors de l’encodage du fichier
principal. La référence à proprement parler a été entourée d’une balise <bibl>, qu’il est possible
de compléter avec un certain nombre d’information complémentaire (<author>, <title>,
etc.). Dans le cadre de ce projet, il n’a pas été jugé nécessaire de le faire car ces informations n’avaient
pas vocation à être utilisées.
Les éléments de bibliographie sont donc encodés sous la forme suivante :
1 Le TeiHeader contient toutes les métadonnées d’un fichier TEI il se situe au début de celui-ci. Pour plus d’informations consulter : http://www.tei-c.org/release/doc/tei-p5-doc/en/html/HD.html 2 Un schéma XML permet de définir un modèle de document, d’imposer un certain nombre de contraintes données. Il a le même principe qu’une DTD. Pour plus d’informations, consulter : https://www.irif.univ-paris-diderot.fr/~carton/Enseignement/XML/Cours/Schemas/ 3 Le schéma TEIall permet d’utiliser toutes les balises et les attributs TEI au sein d’un fichier encodé en XML-TEI. 4 http://www.tei-c.org/Roma/
53
<p xml:id="abauzit2000">°ABAUZIT 2000<lb/>
<bibl>Abauzit P. - Décors d’applique à bordure ajourée de Gaule méridionale,
Instrumentum, 11 (juin) : 16-17.</bibl></p>
Une forme développée comme celle-ci aurait pu être adoptée :
<p xml:id="abauzit2000">°ABAUZIT <date when="2000">2000</date><lb/>
<bibl><author>Abauzit P.</author> - <title type="article">Décors d’applique
à bordure ajourée de Gaule méridionale</title>, <title rend="i"
type="main">Instrumentum</title>,<biblScope>11 <date when="2000-
06">(juin)</date> : 16-17</biblScope>.</bibl></p>
Le procédé qui a été suivi pour le passage de la bibliographie du format natif .docx à un
format XML-TEI est le même que celui qui a été utilisé pour le fichier principal, c’est-à-dire
l’utilisation du logiciel Odette.
D’un point de vue pratique, l’encodage de la bibliographie a été facilité par l’utilisation de
plusieurs expressions régulières, comme par exemple l’une permettant de remplacer une fin de
paragraphe </p> qui suivait la date de parution de la référence par un simple saut de ligne <lb/>,
ce qui permet d’englober l’intégralité de la référence dans le paragraphe possédant un attribut @id.
Pour réaliser le lien entre les deux documents, il a été décidé d’utiliser un script Jquery
(réalisé par Olivier Marlet) qui permet de relier les références abrégées présentes dans l’inventaire
aux références complètes présentes dans la bibliographie. Par ce biais, lorsque la souris passe sur
une référence abrégée de l’inventaire, une fenêtre affiche la référence complète en bas à gauche de
l’écran. Cette solution permet de donner plus d’ergonomie au site et de ne pas avoir à éditer
directement la bibliographie au sein du site, elle est simplement en cache. Ce script étant fait pour
être utilisé sur la version html de l’inventaire, il a été rajouté à la fin du projet lors du développement
de l’outil de recherche.
Une autre solution aurait été de mettre en place le même type de lien entre les références
abrégées et complètes mais seulement en utilisant la technologie XML, notamment par le biais des
balises <xref> et <xptr> ainsi que l’attribut @target. Le principe de cette solution revient à
entourer les références courtes de la bibliographie présentes dans l’inventaire avec une balise xref
et un attribut @target pointant vers l’id de la référence souhaité. Mais cela aurait entraîné une
navigation plus lourde en impliquant un passage de l’inventaire à la bibliographie pour obtenir la
54
référence complète. De plus, cela impliquait également de publier la bibliographie sur le site
directement.
Comme cela a déjà été évoqué auparavant, le choix qui a été fait d’utiliser le logiciel Odette
pour passer du document en .odt à un fichier au format XML-TEI fait qu’une part importante de
l’encodage est à faire directement depuis le logiciel Oxygen. Dans ce cadre, dans un souci d’efficacité
et de gain de temps, l’emploi d’expressions régulières est primordial. L’avantage du document lequel
porté le projet OUTAGR est qu’il est formé avec une rigueur certaine ainsi que selon un schéma
simple qui se répète à chaque entrée, ce qui facilite d’autant plus l’utilisation d’expressions
régulières1. Par exemple dans le cas de l’encodage des grandes périodes archéologiques qui sont
présentes dans l’inventaire, on commence par rechercher le terme dans l’ensemble du document, à
titre d’exemple on peut citer : « LTF » qui correspond à « la Tène Finale ». Ce terme est remplacé
par l’expression suivante :
<date notBefore="-0060" NotAfter="-0027"><choice><abbr>$1</abbr><expan>la Tène
Finale</expan></choice></date>
En reproduisant cette opération pour chacune des périodes qui sont présentes dans le corpus,
cela a permis de gagner une grande quantité de temps sur l’encodage. Cette utilisation des
expressions régulières a également été réalisée pour le balisage des outils archéologiques, certains
lieux qui revenaient régulièrement (notamment les pays) ou encore les mots en latin (comme le
terme villae).
Néanmoins le seul emploi des expressions régulières ne suffit pas, certaines données sont
trop complexes ou inversement trop communes dans leur formation pour que l’emploi
d’expressions régulières soit possible. Pour ce type de données, il est obligatoire de passer par un
encodage manuel, c’est le cas notamment pour une partie des informations concernant la
localisation des sites archéologiques ; ces informations varient d’un site à autre, s’il se trouve à
l’étranger le pays est précisé et pour les sites allemands le länder et l’arrondissement sont précisés,
parfois est ajouté un lieu-dit et parfois non.
1 Pour plus d’informations sur les expressions régulières : https://www.lucaswillems.com/fr/articles/25/tutoriel-pour-maitriser-les-expressions-regulieres
55
Même si un certain nombre de données soient possiblement balisables rapidement par le
biais d’expressions régulières, il est nécessaire de procéder à une vérification systématique de toutes
les données pour prévenir toutes erreurs.
III. Le passage en EAD
L’EAD (Encoded Archival Description) a été développé comme une DTD1 (Document type
Definition) pour encoder les instruments de recherche qui décrivent des fonds d’archives2 en se
basant sur le langage XML, ce langage est compatible avec la norme ISAD(G)3. Sa principale utilité
est l‘indexation et la publication sur le web. Le langage XML-EAD consiste en une imbrication
d’informations de différents niveaux hiérarchiques, typiquement un premier niveau hiérarchique
est constitué par un fond d’archives dans lequel on trouvera plusieurs unités archivistiques
composées par une archive ou un ensemble d’archives.
Dans le cadre de ce projet, même si le corpus ne s’apparente pas à un fond d’archives, il
s’en rapproche par la forme : il s’agit d’un inventaire de sites archéologiques dont chaque entrée est
construite de la même manière, ainsi l’utilisation de l’EAD se justifie dans le cadre du projet.
Comme cela a déjà été avancé précédemment, dans le cadre de ce projet l’instrument de recherche
devait être mis en place à partir du logiciel PLEADE qui accepte seulement le format XML-EAD,
c’est donc la principale raison de son utilisation. Comme nous l’avons déjà évoqué, l’EAD permet
de construire une description hiérarchisée restituant précisément l'imbrication des composants et
sous-composants4, dans le cadre du projet le composant le plus haut de l’inventaire est constitué
par chaque entrée alphabétique, à l’intérieur de celle-ci chaque regroupement alphabétique d’entrées
constitue un sous composant et à l’intérieur de celui-ci, une entrée de site constitue un autre sous-
composant.
Pour plus d’informations sur le format XML-EAD, consulter la bibliographie en fin de
documentation.
Le choix des balises EAD a répondu à deux problématiques : pouvoir convertir les
informations qui ont été d’abord balisées en XML-TEI et axé ce choix sur les éléments qui auront
un intérêt lors de la création de l’outil de recherche, notamment les index de recherche. Les
1 Une DTD sert à construire un ensemble de règles qui vont régir la construction du document XML. Cet ensemble permet de définir l’architecture d’un document XML, les balises et leur hiérarchie. Cet élément a le même rôle qu’un schéma XML. 2 http://bonnespratiques-ead.net/guide/intro/autres-normes 3 L’ISAD(G) correspond à la « Norme générale et internationale de description archivistique » qui a été définie pour la description des fonds et collections conservées dans des services d’archives. 4 http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html
56
principaux éléments qu’il convenait de faire ressortir au sein des index sont d’abord les outils
agricoles, le nom de site ainsi que les informations géographiques concernant la localisation des
sites. Ce choix de balises entraîne fatalement des pertes de données par rapport au langage TEI, en
effet malgré la relative richesse du langage EAD, il ne l’est pas autant que la TEI et le fait que ce
soit un langage qui serve principalement à la description de fonds d’archives augmente encore la
perte d’information. Un élément perdant en particulier en informations est le TeiHeader qui est
transformé en eadheader, ce dernier ne permettant d’être aussi exhaustif au niveau des
métadonnées que le header du langage TEI. Néanmoins il convient de relativiser cette perte
d’informations car elle n’a en aucun cas posé de problème quant à la validation des objectifs du
projet.
Le tableau suivant correspond à un tableau de correspondance entre les balises TEI et EAD qui
ont été choisies :
Abréviations <choice><abbr>forme
abrégée</abbr><expan>forme
développée</expan></choice>
Les abréviations peuvent
concerner des éléments
couramment utilisés dans
le texte (ex :
frag/fragment) ou des
périodes (ex : LTF/La
Tène Finale).
<abbr
@expan="formedéveloppé
e" >forme abrégée</abbr>
Date et
période
_<date @when="AAAA-MM-
JJ " >date</date>
_<date @notBefore=" AAAA
- MM- JJ " @notAfter="
AAAA -MM- JJ ">nom
periode</date>
Les périodes sont souvent
inscrites de manière
abrégée (ex: LTF/la Tène
Finale), dans ce cas elles
ont été encodées de la
manière suivante :
<date
@notBefore="XXXX"
notAfter="XXXX"
><choice><abbr>formeab
régée</abbr><expan>form
edéveloppée
</expan></choice></d
ate>
<date
@normal="AAAAMMJJ">
<date
@normal="AAAAMMJJ/AA
AAMMJJ ">
57
Elément de
localisation
(pays,
département,
…)
<placeName @type="…">
Elément de localisation
</placeName>
<geogname> élément de
localisation </geogname>
Entrée
alphabétique
<head><title>entrée
alphabétique </title></head>
Chaque entrée
alphabétique se situe dans
le <head> des <div> qui
comprennent chacune
l’intégralité des sites
commençant par cette
lettre.
<head>X<head>
Liste
<list>
<item></item>
<item></item>
</list>
Elle apparaît notamment
lorsqu’au sein d’un site, on
trouve plusieurs sous-
localisation différentes
Idem
Mise en
italique et en
gras
<hi @type="i" >terme</hi>
<hi @type="b" >terme</hi>
Certains éléments ont été
mis en gras et en italique
par l’auteur, ces éléments
sont englobés par cette
balise pour respecter les
choix d’édition.
<emph type="italic"
>terme</emph>
<emph type="bold"
>terme</emph>
Mot en
langue
étrangère
<foreign @xml :lang="ISO">
mot</foreign>
Cela concerne des termes
en allemand, anglais, latin,
hongrois et tchèque.
<emph><language
langcode="ISO"
>mot</language></emph>
Nom de site
(entrée)
<placeName
@type="site_archeo"
subtype=" …"
>nomsite</placeName>**
<name>nomsite</name>
58
Note
<note>
parfois
<note @type="nb" >
et
<note @type="gloss">
Il n’est pas possible de
garder l’information de
l’attribut @place qui existe
au sein de la TEI mais non
en EAD.
<note @type="…">
Outil
archéologique
<rs type="…" >outil</rs>***
Un grand nombre de
catégories d’outils existe, il
serait intéressant de
pouvoir garder cette
information pour avoir la
possibilité de pouvoir se
baser sur ces informations
pour des recherches.
<subject>
outil
<subject/>
Paragraphe
(entourant
une entrée)
<p @xml : id="entrée"
>…</p>
Les paragraphes entourent
chacun une entrée.
<c><did
@id=entree>…<did><scop
econtent></scopecontent
></c>
Saut de ligne
<lb/>
Utilisé notamment lors des
listes de sous-locations au
sein d’un site.
Idem
Séparation
des grands
ensembles
alphabétiques
<div type="entree_alpha"
n="X" >
<c @level="series"> <did
id=”entralpha1”><unitid>
A</unitid>…</did></c
>
59
*Parmi les @type de <placeName> on trouve "lieu_dit", "departement", "länder",
"arrondissement" et "pays", il n’a pas été possible de conserver cette information lors du passage
en XML-EAD faute d’équivalence dans ce langage.
** les subtypes sont très nombreux, mais ne pourront pas être exploités dans le document final
faute d’équivalence en XML-EAD.
***les types sont les suivants "instrAra","atteTrai", "outAgri", "ani", "bois", "charr", "harna" et
"instrVete".
Le langage XSLT (Exenstive Style Language Transformations) permet de transformer de manière
automatique un fichier XML en un autre langage informatique, le plus souvent il s’agit d’une
transformation vers un autre langage XML ou en HTML. Ce langage a donc été choisi dans le cadre
de ce projet pour passer d’un fichier XML-TEI à un fichier XML-EAD. Le langage permet de créer
un fichier clone du fichier original dans nouveau format et avec des modifications choisies dans sa
structure et ses composants. XSLT s’appuie sur le XPath1 pour sélectionner les informations à
transformer et respecte la grammaire du XML.
Dans le cadre du projet, il a été choisi de réaliser deux filtres XSLT, l’un portant sur le
« header » et l’autre sur le « body » du fichier pour des raisons de simplicité au niveau de la création
de la structure des filtres. Ainsi le fichier de l’inventaire en XML-TEI a été transformé par le biais
de deux filtres, l’un entraînant la création un fichier XML-EAD avec seulement les éléments de
métadonnées présentes dans le header ainsi que le <frontmatter> et un autre comportant les
données propres de l’inventaire. Ces deux fichiers ont ensuite été reconstitués en un seul qui
constitue l’inventaire complet en XML-EAD.
Pour plus d’informations sur le langage XSLT, son principe et sa mise en place, consulter la
bibliographie en fin de document.
Pour réaliser les transformations, il suffit d’utiliser le bouton « débogueur XSLT » du logiciel
Oxygen XML Editor et de sélectionner ensuite le document à transformer ainsi que le filtre XSLT
voulu.
IV. Le logiciel PLEADE et son utilisation
Le logiciel PLEADE est un outil de publication, de consultation et de recherche de
documents et d'archives numériques (moteur de recherche XML EAD)2. C’est un logiciel libre dont
1 Xpath est un langage d’interrogation des documents XML, il permet de sélectionner certaines parties d’un document XML (attributs, nœuds, sous-arbres, etc.), pour plus d’informations sur le Xpath consulter la bibliographie sur le XSLT en fin de documentation. 2 http://pleade.com/
60
l’objectif se résume à proposer, principalement à destination des services d’archives, un
environnement web dynamique pour publier des instruments de recherche archivistique au format
EAD1. A partir de fichiers EAD bien formés et valides, il est possible de créer un site internet
constituant un instrument de recherche. PLEADE utilise la technologie de Tomcat, SDX ainsi que
Java. PLEADE propose de nombreuses fonctionnalités qui permettent de s’adapter à différents
projets, notamment un outil de publication d’images numérisées, la mise ne place d’un entrepôt
OAI, la diffusion d’informations statiques sur un site web2 …
Afin d’avoir un aperçu des possibilités du logiciel, consulter les liens dans la bibliographie en fin de
document.
L’installation de PLEADE est assez simple mais répond à des contraintes très précises qui
doivent absolument être respectées sous peine de problèmes de fonctionnement ou de non
démarrage du logiciel. Dans le cadre du projet, il a été choisi d’installer une version du logiciel
modifiée par l’équipe de la MSHS de Caen et qui nous a été fourni par l’intermédiaire de Pierre-
Yves Buard. Cette version a été débuguée par les soins de l’équipe et a l’avantage de se présenter
sous la forme d’un fichier contenant à la fois SDX et le logiciel PLEADE en version 4.3. En plus
de SDX et Tomcat, PLEADE s’appuie également sur Java, la version nécessaire à son bon
fonctionnement étant la 1.73.
Comme cela a été avancé plus haut, PLEADE fonctionne en se basant sur SDX et Tomcat,
il convient donc d’installer Tomcat sur le poste de travail en version 7.04, une version supérieure à
celle-ci rendrait impossible l’utilisation du logiciel. Après l’installation de Tomcat, le fichier
« pleade3.4rc3.war » doit être placé dans le dossier webapps située dans le dossier Tomcat 7.0.
Après avoir placé ce document, l’installation se fait automatiquement. Si l’installation c’est bien
déroulé, il suffit d’ouvrir une page internet et de rentrer l’adresse suivante :
http://localhost:8080/pleade3.4rc3 pour atteindre la page du logiciel.
Pour installer une version classique de PLEADE, la procédure est détaillée sur le site officiel du
logiciel5.
L’utilisation de PLEADE pose un certain problème du fait qu’il n’existe pas aujourd’hui de
documentation utilisable sur le logiciel à jour, la seule existante concerne la version 2.0 de PLEADE
1 http://pleade.org/fr/documentation/concepts/index.html 2 http://pleade.org/fr/documentation/descriptions/index.html 3 Cette version est communément appelée Java version 7, elle est téléchargeable à partir du lien suivant : http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html 4 La version 7.0 de Tomcat est téléchargeable depuis ce lien : https://tomcat.apache.org/download-70.cgi 5 http://pleade.com/documentation/installation
61
et est donc périmée1. La suite de cette documentation tentera de détailler son utilisation mais ne
doit en aucun être considérée comme exhaustive.
1. La publication des fichiers
Pour mettre en place l’outil de recherche à partir du document EAD, le fichier EAD doit
être placé dans le dossier EAD du dossier exemples2. Une fois placé à cet emplacement, il devient
possible de publier le document à partir de la fenêtre « gestion de contenu » du logiciel PLEADE
dans la section « Publier des documents EAD », une barre permet de « Sélectionner un fichier ou
un dossier à publier », une fois le fichier sélectionner, en appuyant sur le bouton « Valider » le
document est alors publié et accessible dans la section « Gérer les documents EAD publiés » dans
l’onglet « Gestion de contenu ».
2. La modification de l’interface graphique
Le logiciel Pleade fonctionne comme un appareil en back-office et front-office, les
modifications sur le site se font directement sur celui-ci et concernent l’intégralité de l’interface.
Afin de modifier l’interface, il est nécessaire de travailler sur plusieurs fichiers déjà présents au
format xml, html et css, il est donc nécessaire de maîtriser ces langages pour réaliser cette partie de
personnalisation de Pleade.
Concernant l’apparence en tant que tel du site, son application consiste principalement en
la modification en fonction des besoins des pages html correspondant aux différentes pages de
Pleade, elles sont situées dans le dossier « pages3 » dans le cas des pages statiques comme la page
d’accueil. Les pages HTML sont très détaillées, de nombreuses classes et id ont été appliqués à des
balises html <div> et <p>, ces attributs classe et id sont présents également dans des fichiers css,
il est donc possible de se baser sur ce système pour mettre en place l’habillage du site. Les css sont
regroupés dans un dossier au même nom4.
La mise en place des menus, formulaires de recherches ou des rubriques se fait depuis
l’onglet « administration » du logiciel Pleade qui permet de récupérer les fichiers au format .xconf5
qui gèrent ces différents éléments.
1 http://pleade.org/fr/documentation/index.html 2 Apache Software Foundation/Tomcat 7.0/webapps/pleade3.4rc3/exemples/ead 3 Le chemin à suivre pour accéder au dossier « pages » depuis le dossier racine de Tomcat est le suivant : Tomcat 7.0/webapps/pleade3.4rc3/module-eadeac/pages 4 Le chemin à suivre pour accéder au dossier « css » depuis le dosser racine de Tomcat est le suivant : Tomcat 7.0/webapps/pleade3.4rc3/theme/css 5 Un fichier au format .xconf s’appuie sur la grammaire XML.
62
Conclusion :
Il convient de rappeler que les choix qui ont été faits dans le cadre du projet OUTAGR et
qui ont été présentés synthétiquement dans ce document ne constituent qu’un exemple, beaucoup
d’autres solutions auraient pu être choisies pour réaliser un outil de recherche ou traiter un
inventaire du type de celui de Alain Ferdière à des fins de publications électronique. Le choix de la
TEI du passage à l’EAD a été notamment en grande partie conditionné par le choix de réaliser
l’outil de recherche via le logiciel Pleade.
Certaines volontés n’ont pas pu être mises en place dans le cadre du projet principalement
pour des questions de limites techniques. L’un des objectifs étaient notamment de faire
correspondre le nom des outils archéologiques avec leur traduction en anglais, allemand et latin,
cela n’a pas été réalisable faute de possibilités avec le langage XML-EAD et donc impossible à
mettre en place dans le rendu final sur Pleade. Cette correspondance était malgré tout à fait possible
à mettre en place en utilisant la technologie de la TEI. Pleade est un logiciel qui permet la création
d’un outil de recherche de manière simple et en s’épargnant un important travail de programmation,
néanmoins il contient des limites et induit la maîtrise technique d’une certaine quantité de
technologie ainsi qu’une bonne préparation du matériel informatique à son usage.
Dans le cadre de ce projet nous avons été amenés à utiliser plusieurs technologies et
langages informatiques, notamment la TEI et l’EAD, dans un but bien particulier mais leur utilité
s’inscrit dans un cadre beaucoup plus large. Dans le cas de la TEI par exemple, celle-ci peut être
utilisée au sein d’une chaîne d’édition de texte scientifique ou de source primaire.
63
Bibliographie et webographie :
Society of American Archivists, Description Archivistique Encodée : Dictionnaire des balises, traduit de l'anglais par le groupe AFNOR CG46/CN357/GE3, URL :
http://www.archivesdefrance.culture.gouv.fr/static/1066, publié le 01/10/2004, consulté le 30/05/16.
Claire Sibille, EAD : le standard d’encodage pour les descriptions de manuscrits et d’archives, URL :
http://www.enssib.fr/bibliotheque-numerique/documents/1334-ead-le-standard-d-encodage-pour-les-
description-de-manuscrits-et-d-archives.pdf, publié le 19/11/2007, consulté le 30/05/16.
http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html
http://bonnespratiques-ead.net/guide
Dossiers d’encodage issus d’autres projets :
http://www.archivistes-experts.fr/reglementation_EAD.pdf
http://www.enssib.fr/bibliotheque-numerique/documents/62240-faire-un-repertoire-ou-un-inventaire-
simple-en-ead-description-archivistique-encodee.pdf
pleade.com
pleade.org
Exemples de sites mis en place à PLEADE :
http://bcmopac.mnhn.fr/expertise/
https://www.unicaen.fr/mrsh/bvma/inventaires/
https://www.unicaen.fr/crahm/Nummus/pages/fonds.html
Lou Burnard, Qu’est-ce que le Text Initiative Encoding ? [en ligne], URL : http://books.openedition.org/oep/1297, consulté le 30/05/16.
http://www.tei-c.org/index.xml
Bernard Barbiche, Conseils pour l’édition des textes de l’époque moderne (XVIe-XVIIIe siècle), URL : http://theleme.enc.sorbonne.fr/cours/edition_epoque_moderne/edition_des_textes, consulté le 30/05/16.
Emmanuel Château, L’encodage des textes, URL : http://www.desgodets.net/edition-des-cours/model, publié le 23/09/13, consulté le 30/05/16.
64
Dossiers d’encodage issus d’autres projets :
http://www.bvh.univ-tours.fr/XML-TEI/index.asp
https://halshs.archives-ouvertes.fr/hal-00718043/document
http://bfm.ens-lyon.fr/IMG/pdf/Manuel_Encodage_TEI.pdf
https://sourceforge.net/p/epidoc/wiki/Home/
https://openclassrooms.com/courses/les-bases-de-la-mise-en-forme-xml-avec-xslt
http://edutechwiki.unige.ch/fr/Tutoriel_XSLT_d%C3%A9butant
https://www.irif.univ-paris-diderot.fr/~carton/Enseignement/XML/Cours/XSLT/index.html
http://xml.chez.com/xslt/
66
Bibliographie et Webographie générale :
http://www.w3schools.com/css/
https://www.w3.org/Style/CSS/learning
Alain Ferdière, Recherches sur l’habitat rural gallo-romain en Beauce : autour de la fouille de Dambron (1972),
thèse 3e cycle, Université. Paris IV, 6 vol., 946 p.
Alain Ferdière, « Recherche sur les contextes de découverte d’outillage agricole et objets liés au
travail et à la production rurale en Gaule romaine », in : Ph. Leveau, C. Raynaud, R. Sablayrolles et
F. Trément (dir.) - Les formes de l’habitat rural gallo-romain. Terminologies et typologies à l’épreuve des réalités
archéologiques, Actes du Colloque AGER VIII (Toulouse, 2007), Aquitania, Suppl. 17, Bordeaux : 81-
107.
Gilbert Kaenel, Tène, civilisation de La, Dictionnaire Historique de la Suisse [en ligne], consulté le
06/06/2016. URL : http://www.hls-dhs-dss.ch/textes/f/F8015.php
Claire Sibille, EAD : le standard d’encodage pour les descriptions de manuscrits et d’archives, URL : http://www.enssib.fr/bibliotheque-numerique/documents/1334-ead-le-standard-d-encodage-pour-lesdescription-de-manuscrits-et-d-archives.pdf, publié le 19/11/2007, consulté le 30/05/16.
Society of American Archivists, Description Archivistique Encodée : Dictionnaire des balises, traduit de l'anglais par le groupe AFNOR CG46/CN357/GE3, URL : http://www.archivesdefrance.culture.gouv.fr/static/1066, publié le 01/10/2004, consulté le 30/05/16.
http://www.archivistes-experts.fr/reglementation_EAD.pdf
67
http://www.bnf.fr/fr/professionnels/formats_catalogage/a.f_ead.html http://bonnespratiques-ead.net/guide
http://www.enssib.fr/bibliotheque-numerique/documents/62240-faire-un-repertoire-ou-un-inventairesimple-en-ead-description-archivistique-encodee.pdf
http://nliautaud.fr/wiki/articles/notepadpp/expreg#notepad_les_expressions_regulieres
http://www.archearegioncentre.org/Marmoutier.html
http://citeres.univ-tours.fr/spip.php?article1305
https://hal.archives-ouvertes.fr/halshs-00679740
http://bcmopac.mnhn.fr/expertise/
https://www.unicaen.fr/mrsh/bvma/inventaires/
https://www.unicaen.fr/crahm/Nummus/pages/fonds.html
pleade.com
pleade.org
Bernard Barbiche, Conseils pour l’édition des textes de l’époque moderne (XVIe-XVIIIe siècle), URL : http://theleme.enc.sorbonne.fr/cours/edition_epoque_moderne/edition_des_textes, consulté le 30/05/16.
Lou Burnard, Qu’est-ce que le Text Initiative Encoding ? [en ligne], URL : http://books.openedition.org/oep/1297, consulté le 30/05/16.
68
Emmanuel Château, L’encodage des textes, URL : http://www.desgodets.net/edition-des-cours/model, publié le 23/09/13, consulté le 30/05/16.
http://www.tei-c.org/index.xml
Marjorie Burghart et Nicole Dufournaud, « Édition électronique de sources : XML et Text Encoding Initiative (TEI) à l'École », La lettre de L’EHESS [en ligne], n° 38, 2011, URL : http://lettre.ehess.fr/index.php?1530
http://www.bvh.univ-tours.fr/XML-TEI/index.asp https://halshs.archives-ouvertes.fr/hal-00718043/document http://bfm.ens-lyon.fr/IMG/pdf/Manuel_Encodage_TEI.pdf https://sourceforge.net/p/epidoc/wiki/Home/
https://openclassrooms.com/courses/les-bases-de-la-mise-en-forme-xml-avec-xslt
http://edutechwiki.unige.ch/fr/Tutoriel_XSLT_d%C3%A9butant https://www.irif.univ-paris-
diderot.fr/~carton/Enseignement/XML/Cours/XSLT/index.html http://xml.chez.com/xslt/