« Transcrire, écrire et formaliser en analyse phonétique, mélodique et tonale : l'exemple d'une...

1 / 26

Transcrire, écrire et formaliser en analyse phonétique, mélodique et tonale : l’exemple

d’une langue d’Asie du Sud-est tonale (mo piu) et du français1

Geneviève Caelen-Haumont1, Alice Vittrant2

1MICA Institute, HUST - CNRS/UMI2954 - Grenoble INP, Hanoi University of Science &

Technology, Vietnam 2LACITO, Paris 3 et Université Des Sciences Humaines, Aix-en-Provence, France.

Résumé

Cette communication s’appuie sur différents types d’analyse phonétique, mélodique, et tonale, portant d’une part sur une langue du sud-est asiatique du Nord Vietnam, en français le mo piu [et dénommé par la communauté ethnique, Hmong Bjo] et d’autre part sur le français. La langue mo piu est sans écriture, et constitue un rameau encore inconnu des langues Hmong-Mien. Fondée à la fois sur le mo piu et sur le français aux systèmes radicalement différents, cette étude tente en fonction de nos diverses expériences, d’identifier et de circonscrire les étapes de transcription, d’écriture et de formalisation. Une des originalités de cette communication est d’évaluer ces étapes à la fois à partir des tâches manuelles d’expertise, et des tâches automatiques. Pour ce faire, nous utiliserons des outils informatiques (PRAAT-MOMEL-MELISM) permettant de transcrire les sons, de les analyser, de les systématiser en fonction de nos différentes perspectives d’étude.

Abstract

This paper is focused on different kinds of phonetic, melodic and tonal analyses, concerning on one hand the mo piu language, without writing, from the south-east Asia in North Vietnam, a branch still unknown of the Hmong-Mien family, and on the other hand, on French. Our aim is function of our experience, to try to get a deeper insight into the concepts and tasks of transcription, writing and formalization. To explore these concepts in a new way, they will be checked both in the context of the manual tasks made by phoneticians, and of automatic ones. Some speech computer tools (PRAAT-MOMEL-MELISM) enabling to transcribing, analyzing the sounds in the perspective of a systematic approach, will be presented in regards to the several perspectives of the study. Mots-clefs : transcrire, écrire, formaliser, phonétique, F0, tons, langue du sud-est asiatique, français, proéminence mélodique Key-words: transcription, writing, formalization, phonetics, F0, tones, South East Asian language, French, melodic prominence.

Introduction Représenter une langue orale sous la forme de symboles écrits bénéficie le plus souvent d’une tradition historique riche et diversifiée, composée à la fois d’un héritage issu d’une ou 1 Nous remercions tout particulièrement les relecteurs et relectrices de cette communication dans le cadre du

CerLiCO 2011 et de la Revue Corela, ainsi que les personnes qui travailleront à son formatage.

2 / 26

d’autres langues, et de remaniements successifs pour mieux adapter la transcription à l’usage phonétique. L’histoire de l’orthographe française représente un bon exemple d’une complexité peu à peu échafaudée à partir comme on le sait de l’alphabet latin. Plusieurs auteurs (Blanche-Benveniste et Chervel, 1969, 1978 ; Burney, 1955, 1970 ; Catach, 1986 ; Catach et al., 1971) ont développé à ce sujet des études diachroniques sur l’évolution des formes, dont des dictionnaires et des graphies. En fait ces études montrent que l’enjeu des spécialistes face à la transcription des sons du français s’est confrontée à trois problèmes majeurs : adapter l’écriture à l’évolution non seulement phonétique, mais aussi morphosyntaxique et syntaxique, corriger des erreurs de graphie mêlant sous une même forme des sons différents, corriger les lacunes du système d’écriture générant des incompatibilités graphiques.

Selon Burney (1955, 1970), la première cause de nos problèmes orthographiques actuels remonte à l’adoption d’une graphie du système de 22 sons latins pour transcrire une langue beaucoup plus riche phonétiquement. Dans ces conditions, les clercs, familiers de la langue latine, utilisent des artifices d’écriture pour pallier l’insuffisance du système graphique latin, générant des ambiguïtés phonétiques dont le français porte encore les traces. Au 13ème siècle, alors que le français se dote de textes juridiques et administratifs, il faut apporter plus de rectitude et un usage plus stable. Parmi eux, un moyen simple pour graphier les sons du français, en référence toujours aux 22 lettres du latin, est de les doubler, formant

par exemple les 4 sons nasals du français d’alors /ã, ɛ, ᴐ, œ/ transcrits respectivement an,

in, on, un, ou indiquant par un redoublement de consonnes que la voyelle précédente est

fermée (à cette époque par exemple appelle). Mais ce procédé génère à son tour d’autres problèmes lorsque l’évolution phonétique aboutit à la même graphie alors que le son est différent. Il faut alors inventer d’autres procédés ad hoc pour contourner la difficulté. Ainsi la lettre h sera utilisée en tant que séparateur phonétique, distinguant par exemple la graphie ai

pour /ɛ/, de la graphie avec h pour transcrire la succession de 2 voyelles /a/ et /i/, comme

dans ebahi. Au moyen-âge, la graphie v marquant à la fois le son /v/ et le son /µ/, h sera

aussi utilisé en tant que marqueur de la semi-consonne, permettant ainsi de distinguer les écritures des mots comme ville et huile. L’ajout de nouvelles lettres, de diacritiques pour marquer les accents par exemple contribueront à simplifier l’orthographe en supprimant des lettres inutiles ou à réduire une partie des ambiguïtés. Ces derniers réajustements auront lieu au cours du 18ème siècle. Mais le français reste un bon exemple de langue où les « ornements » rendent difficile l’apprentissage de la lecture. L’histoire de la transcription orthographique du français nous montre par ce seul exemple que la transcription n’est pas une œuvre marginale, mais nécessite au contraire un travail extrêmement méticuleux, et de confrontation entre d’une part un système phonétique, phonologique, et souvent morphosyntaxique et syntaxique, une transcription, une graphie ou écriture, et confrontation sans cesse renouvelée du fait de l’évolution naturelle de la langue et de ses composantes.

3 / 26

Nous n’aborderons pas l’aspect diachronique, mais de l’aspect syntagmatique, dans cet article qui vise à distinguer trois tâches dans le processus de description d’une langue : écrire,

transcrire, formaliser. Il ne s’agit pas ici d’une description standard dans la mesure où nous aborderons d’une part en phonétique le cas d’une langue tonale totalement inconnue, le « mo piu », langue du sud-est asiatique parlée dans le nord-Vietnam, et d’autre part en prosodie, un type de description prosodique originale portant sur les mots mélodiquement (et prosodiquement) proéminents (i.e. saillants) dans le discours français. Dans les expériences que nous décrirons, ces trois tâches de description (écrire, transcrire, formaliser), bien que ne concernant ni les mêmes langues ni les mêmes objets linguistiques, sont dans la pratique de l’analyse, entremêlées. Il va par exemple de soi qu’à notre époque pour pouvoir transcrire (première tâche) une langue inconnue, il faut détenir des références, c’est-à-dire des connaissances d’arrière plan qui supposent de fait une écriture et une formalisation antérieures à cette tâche, auxquelles on se réfère. Par exemple lorsqu’il s’agit de transcrire les unités phonétiques mo piu, nous utilisons la symbolisation API qui résulte d’une écriture et formalisation acquises au 20ème siècle, revues, corrigées, amplifiées par un ensemble de phonéticiens spécialistes des langues du monde entier. Par ailleurs la transcription, conçue ici comme première étape d’une description, en appelle une autre, de réexamen, de comparaison, d’analyse, de filtrage, aboutissant aux tâches d’écriture (à nouveau), et de formalisation, provisoires ou définitives, c’est-à-dire d’établissement du système phonologique et tonologique. Une autre caractéristique de cet article est d’envisager ces tâches sous deux modes : un mode de transcription et de formalisation manuel, et un autre automatique. Cela aboutit donc à une réflexion plus élaborée sur ces tâches de description des langues.

1. La langue mo piu et le corpus

Les Mo Piu habitent le nord du Vietnam, dans une zone reculée des montagnes (dans la commune de Nam Xe, district de Van Ban, département de Lao Caï), à environ 1800 m d’altitude. Pour y arriver après une nuit de train au départ d’Hanoï, il faut depuis Lao Caï (ville frontière avec la Chine) environ 5 heures de voiture, puis y accéder par moto sur une piste de 7 km surplombant des pentes parfois vertigineuses, dans un panorama superbe, puis franchir un torrent sur un pont artisanal de bambous -ou à gué si ce dernier a été emporté par de fortes précipitations-, et enfin escalader à pied un raidillon menant au village posé sur le flanc de la montagne parmi des blocs de rochers.

Le mo piu est une langue du groupe Hmong-Mien, anciennement dénommé groupe Miao-Yao, non répertoriée, encore non-décrite et langue en danger du fait du petit nombre de ses locuteurs : 237 personnes en 2011. Entre 1850 et 1950, beaucoup de français, linguistes, militaires, botanistes, médecins… ont contribué à la description de beaucoup de langues ethniques du Sud-est asiatique. Par exemple en dehors de nombreuses études menées sur « l’annamite » (ou vietnamien), sur les langues et dialectes de Chine, du Vietnam, du Laos, etc., on peut citer en particulier concernant les langues Hmong, des auteurs comme François Marie Savina (1924) et André-Georges Haudricourt (1951). Aucun linguiste français de la première génération au Vietnam, ni actuel au niveau international, à notre connaissance, n’a décrit cette langue.

4 / 26

Le mo piu est une langue bien évidemment non écrite, et les premières études que nous avons menées en 2009-2010 (Caelen-Haumont et al., 2010) sur du discours spontané exclusivement, nous ont permis de conclure que la langue était tonale comme la grande majorité des langues de la région (Vittrant 2010), avec une forte proportion de tons en plateaux (recto-tono en 3 niveaux) et majoritairement monosyllabique. Les terrains suivants de 2010 et 2011 ont confirmé ces premiers résultats, et bien entendu les ont complétés.

Les corpus enregistrés sont de plusieurs sortes :

1- Questionnaires « culturels » au sens large (questions / réponses) : 2009, 2010, 2011, 2- Récits de vie : 2010, 2011, 3- Contes mo piu : 2010, 4- Listes de mots isolés, comme la liste de Swadesh (1971 :283) revisitée pour l’Asie par Matisoff 1978 et intitulée CALMSEA, ou la liste de 500 entrées proposée par Haudricourt : 2010, 2011, 5- Liste de mots en contexte court : 2010, 6- Commentaires sur des vidéos présentant des personnes isolées ou en groupes, effectuant des déplacements simples, très divers, dans des environnements diversifiés ; le but de cet outil développé dans le cadre du projet ‘Trajectoire’ de la Fédération Typologie et Universaux Linguistiques (FR 2559), est d’étudier l’expression de la trajectoire dans des langues diverses : 2010, 7- Reconstitutions d’un conte à l’aide d’un livre d’images sans texte le « conte de la grenouille » (Mayer, 2003) : 2011. En 2010, nous totalisions 750 fichiers audio + 750 fichiers vidéo, 19h37 de discours continu, 5h44 de listes de mots. En 2011, la comptabilisation en détail n’a pu être faite encore, mais nous totalisons environ 250 fichiers parole, 8h53 minutes, soit pour les 3 terrains (2009, 2010, 2011) 34h14 mn, environ 1000 fichiers et 23 locuteurs (9 locutrices, 14 locuteurs). Ces 34h14 mn correspondent à tous les enregistrements français + vietnamien + mo piu.

En plus de ces enregistrements nous possédons plusieurs milliers de photos et plusieurs centaines de clips-vidéo.

Nous possédons donc une base de données inédite, riche et diversifiée, en 3 versions français (ou anglais) / vietnamien / mo piu.

2. La tâche de transcription dans le cadre du mo piu

Le système d’annotation et d’écriture symbolique utilisé pour la description du Mo Piu est celui de l’API. Langue non-écrite et non-décrite, le Mo Piu va donc être analysé dans le même temps où l’on élabore outils et méthodes pour les adapter à cette situation peu commune, i.e. celle de la description de langues inconnues (sans référence antérieure).

Comme précisé ci-dessus, cette langue semble appartenir au sous-groupe des langues hmong vert, branche des langues Hmong de la famille des langues hmong-mien. Parlée par un tout petit nombre de personnes dans une zone à l’écart du tourisme (la zone est interdite aux étrangers), elle est tonale, avec une structure tonale curieuse la rapprochant de celle des chants.

5 / 26

2.1. Les principales difficultés rencontrées lors de la transcription du mo piu

Elles sont de plusieurs natures : propres aux conditions d’enregistrement, aux locuteurs interrogés, à la langue, et à la tâche.

2.1.1. Difficultés dues aux conditions d’enregistrement

Concernant les enregistrements eux-mêmes, leur qualité ne pose aucun problème, elle est au contraire excellente. Notre matériel d’enregistrement comporte 2 microphones directifs (correspondant à 2 pistes, la première pour le français et le vietnamien, l’autre pour le mo piu), 2 caméras enregistrant de face et de profil. Par ailleurs tous les types d’enregistrements audio et vidéo sont coordonnés par un ingénieur informaticien, qui gère le tout via un ordinateur et un programme spécialisé qu’il a conçu.

Au niveau des conditions de l’enregistrement, si les micros directifs ne sont heureusement

pas sensibles aux bruits environnementaux, ce n’est pas toujours le cas pour notre perception auditive. Les enregistrements en effet se font dans une grande maison traditionnelle mo piu, où circulent les personnes de la famille, des curieux et oisifs, mais aussi les chiens, les chats avec leurs portées respectives, parfois les coqs et poules -avant d’être chassés au milieu de leurs cris courroucés-,des bruits divers, aboiements, chants, grognements ou cris des cochons, sans oublier les enfants en vacances qui jouent et crient à l’extérieur. Nous avons même partagé la présence d’un porcelet, confié à la responsabilité de la grand-mère pendant l’absence prolongée d’un neveu, attaché pour l’avoir à l’œil à 2m de notre table d’enregistrement, et qui ne cessait de gémir et de se lamenter sur son manque de liberté… Le tout est parfois pimenté par le bruit de la décortiqueuse de riz, qui plonge sans avertissement nos oreilles dans un tunnel de décibels imparable… Il faut enfin s’adapter au rythme de vie, de travail (activités agricoles et domestiques) des locuteurs, et parfois attendre patiemment la fin de leur journée à leur retour de la rizière, voire parer à d’éventuelles défections de dernière minute. La réalité d’un terrain, c’est cela.

En ce qui concerne les locuteurs, les choses se sont améliorées au cours des années ; nous totalisons maintenant (2011), 3 années d’enregistrements. Les Mo Piu se sont réellement investis dans ce projet qui les a séduits, et ils se sont habitués à nos méthodes et outils de travail : microphones directionnels, caméras, questions diverses et variées, etc. Il n’en reste pas moins que l’appareillage reste parfois intimidant surtout lors d’une première expérience. Cette situation technologique reste artificielle pour eux. Ainsi sur 3 années, 2 locuteurs ont été incapables de réaliser un enregistrement. En 2011, une jeune femme nous a confié que cela faisait 2 ans qu’elle attendait avec impatience de parler devant un microphone, et que son rêve s’étant enfin réalisé, son émotion l’empêchait de pouvoir dire tout ce qu’elle souhaitait…

Chaque année à notre arrivée, nous organisons notre programme de séances avec les autorités du village (le chef, les gens qui travaillent dans l’administration locale, des enseignants…). Avec leur aide, nous choisissons les locuteurs selon le type d’enregistrements que nous souhaitons effectuer, soit des spécialistes d’un sujet culturel au sens large, soit des locuteurs parfaits connaisseurs de leur langue pour des mots peu courants, soit des locuteurs perceptivement bien audibles. Au fil des années, nous avons nous-mêmes sélectionné certains

6 / 26

locuteurs. Nous conformant aux consignes des autorités du Département de Lao Caï, chaque séance d’enregistrement est rétribuée.

Dès la première année, nous avions des relations très cordiales, vivant comme les mo piu, au milieu d’eux, respectant leur mode de vie et leurs contraintes. Les repas aux nombreux toasts, les fêtes, les chants en notre honneur, qu’ils soient mo piu, vietnamiens ou français, la bonne humeur générale, en sont des manifestations. Nous nous retrouvons désormais comme des amis.

Par ailleurs tous les locuteurs Mo Piu, analphabètes ou pas, pratiquent au minimum quatre autres langues : le hmong blanc, le dao [prononcé ‘Zao’, ou ‘Iu Mien’, famille Hmong-Mien], le tay [famille Tai-Kadai], assez souvent le vietnamien [famille Austroasiatique, branche Mon-khmer], parfois le thaï [famille Tai-Kadai], et plus rarement le hmong vert, le hmong rouge, le quang hoa (chez les anciens), le mandarin [famille Sino-tibétaine], le sa pho… Ainsi le locuteur VAB01, agriculteur, âgé de 52 ans, ayant une éducation du niveau d’école primaire, parle ces 10 langues, auxquelles il faut encore ajouter le thai blanc, le thai noir et le laotien. Il n’a bien évidemment pas le même niveau de compétence dans toutes ces langues, compétences qu’il a essayé de nous exprimer sous forme de pourcentages. En fait parmi, les 23 locuteurs mo piu (14 locuteurs, 9 locutrices) que nous avons pu enregistrer depuis 2009, la langue la plus souvent parlée, en dehors du vietnamien — qui est d’autant plus souvent parlé que les personnes sont jeunes ou travaillent dans l’administration locale—, est le hmong

blanc.

3.1.2 Difficultés dues à notre méconnaissance de la langue mo piu

Cette langue non indo-européenne nous étant inconnue, nous sommes donc confrontés d’une part à des phonèmes peu familiers, mais aussi à des tons. Les unités phonétiques que nous reconnaissons peuvent aussi dissimuler des pièges : notre flexibilité perceptive peut en effet être tentée d’identifier telle unité comme une unité de notre système (langue maternelle à laquelle s’ajoutent les autres langues acquises), alors qu’elle présente des traits spécifiques que nous délaissons. La transcription doit donc être prudente et très progressive, et user de tous les moyens disponibles pour comparer les réalisations : la répétition soit du même mot par le même locuteur et par d’autres, soit de mots s’opposant par un trait de durée, tonal, ou acoustique, la confrontation aux transcriptions d’autres phonéticiens participant à la même expérience. Devant une langue inconnue, il n’est pas toujours facile d’avoir une attitude juste entre ce que l’on pourrait appeler une « hypo-transcription » et inversement une « hyper-transcription ».

3.1.3 Difficultés dues à la variabilité locuteur et contextuelle

Pour la transcription, de manière à pouvoir confronter nos perceptions, nous étions 3 phonéticiens à transcrire par écrit en API les réalisations phonétiques et tonales. L’instruction donnée au locuteur est de répéter 3 fois le mot en insérant une pause entre chaque réalisation.

Nous avons ainsi relevé sans surprise qu’un même mot peut être sujet à une certaine variation phonétique selon les locuteurs. En soi, ceci est loin d’être nouveau, le phénomène de variation locuteur étant fort connu. Dans une langue bien décrite, on règle ce problème en

7 / 26

classant ces phénomènes en termes de phonèmes et d’allophones, qu’il s’agisse d’unités phonétiques ou tonales, mais dans une langue dont on ne connaît pas le système phonologique, la norme que l’on ignore encore dans ce premier temps de description, se réduit à l’état de variante phonétique, variante parmi les variantes. Ce type de variabilité toutefois, du fait qu’elle est systémique chez un même locuteur, voire un groupe, est sans doute plus facile à cerner.

A ces problèmes s’en ajoute un autre qui n’est pas souvent signalé et qui est pourtant bien réel : le timbre d’une voyelle peut varier très sensiblement en fonction du type de micro à l’enregistrement, du système d’enregistrement et du micro en sortie. Ainsi beaucoup de désaccords entre phonéticiens peuvent naître des conditions d’enregistrement qui sont acoustiquement différentes.

La variation contextuelle est sans doute beaucoup plus difficile à caractériser, car bien entendu les contextes phonétiques et tonals sont multiples. Cela signifie d’abord qu’un ton peut modifier un phonème, ce qui accroît encore le nombre de variantes. Mais ce n’est pas tout. En 2009-10, lors de notre première étude (Caelen-Haumont et al., 2010) sur le discours continu mo piu, nous avions déjà souligné que la durée des voyelles devait jouer une fonction discriminante. Les 173 syllabes de discours continu étudiées au cours de cette première étude ont une durée moyenne de 378 ms, mais elles supportent un écart important de 40 à 1380 ms. Notre étude de 2010-2011 dans le cadre du contrat ANR blanc 2009 « Pi-Languages » montre sur un autre corpus mo piu que les 324 consonnes du corpus de mots isolés ont une durée moyenne de 130 ms, et les 288 voyelles, 287 ms, ce qui concorde avec la durée syllabique du discours continu analysée en 2010.

Nos analyses de juin 2011 sur place ont également confirmé que la durée était discriminante : des mots phonétiquement et tonalement semblables s’opposent par la durée. Mais plus précisément, selon notre expérience, le ton chez les mo piu se définit par un ensemble de traits : hauteur mélodique, longueur, voire l’usage de la voix craquée (sous analyse). Ainsi les dernières analyses sur place à Nam Tu Thuong semblent attester outre les plateaux qui dominent, l’usage de 2 tons montants et de 2 descendants, chacun d’eux dans leur catégorie se différenciant à la fois par la hauteur et la longueur.

Le point concernant le caractère discriminant de la durée semble être acquis, mais un problème important reste encore à résoudre au sujet des voyelles longues. Deux problèmes se conjuguent en fait. Tout d’abord sous l’effet de la durée, phénomène bien connu, nous savons que le timbre de la voyelle se modifie. Cette modification peut même aller jusqu’à faire percevoir en contexte droit, en l’absence de toute nasale, un appendice nasal vélaire postvocalique. Bien entendu on rencontre aussi des cas où lorsqu’une voyelle longue précède une consonne nasale, la voyelle au contact se nasalise. Mais il existe un troisième cas de figure en mo piu. Cette langue, comme la grande majorité des langues Hmong, possède des consonnes initiales pré-nasalisées ; ce qui a pour conséquence la nasalisation de la voyelle finale précédente.

8 / 26

Il faut en outre tenir compte d’une hyper-articulation éventuelle du locuteur, ou des procédés de mise en relief acoustique qui sont d’autant plus sensibles qu’ils s’exercent sur un mot isolé…

Quoi qu’il en soit, nous sommes donc confrontés au problème de savoir comment transcrire ces unités vocaliques longues : soit sous la forme d’une seule unité variant dans le temps phonétiquement mais non phonologiquement, soit sous la forme d’une diphtongue, parfois entièrement orale, parfois mixte, orale et nasale. Par ailleurs une diphtongue est aussi généralement plus longue qu’une simple voyelle, mais la tenue des voyelles en mo piu comme on l’a vu, étant beaucoup plus longue que celle d’une voyelle de type standard, la durée de ce fait ne peut pas être considérée comme un paramètre contribuant à discriminer voyelles et diphtongues. Voici un exemple (figure 1 ci-dessous) : pour le correspondant mo piu du mot abeille, en fonction des répétitions de ce mot, nous avons 4 variantes concernant à la fois la voyelle (longue de 320 ms) et la nasale vélaire finale, ces variantes pouvant s’écrire en API soit

/mᴐᴐɳ /, /mᴐɳ /, /mᴐᴐŋ/, /mᴐŋ/.

Figure 1. Un exemple de difficulté de transcription manuelle du mo piu : durée de la voyelle et appendice nasal vélaire.

Dans ce cas, s’agit-il d’une seule voyelle longue nasale, ou d’une diphtongue avec un segment oral puis nasal ? La vélaire par ailleurs est-elle phonologique ou pas ? Bien entendu c’est le système phonologique qui est concerné, et donc non seulement la graphie symbolique API, mais aussi la graphie orthographique lors de la future création de l’écriture mo piu.

Par ailleurs comme en vietnamien, nous avons pu déceler pendant nos enregistrements de 2011, que la voix craquée jouait aussi un rôle dans l’opposition des tons. Il reste à comprendre si c’est un trait qui est discriminatif par lui-même, ou si c’est un simple corolaire d’autres traits dans la discrimination, comme la courbe mélodique, ou la durée.

9 / 26

En ce qui concerne l’étude tonale qui est intimement mêlée bien entendu à l’étude phonétique, les commentaires ci-dessus la concernent, mais elle est grandement facilitée par l’outil de description MELISM (voir paragraphe suivant).

2.2. Les modes de transcription manuelle et automatique et de l’écriture

Concernant la transcription manuelle, il va de soi que notre expérience actuelle nous cantonne à l’étape d’une transcription que nous qualifierons de mixte, évoluant selon le cas d’une transcription acoustique à une transcription phonétique ou « tonétique ». Par transcription acoustique, nous entendons dans les contextes complexes, la possibilité d’écrire successivement les différents sons perçus, remettant à plus tard le soin de comparer d’autres contextes proches chez le même locuteur ou chez plusieurs, et de décider s’il s’agit finalement d’une seule unité articulatoire ou d’un cluster (groupement de consonnes). C’est dire que pour le moment une transcription phonologique et tonologique est exclue. Notre tâche est donc de recenser au fil des listes de mots, les variations phonétiques et tonales de toutes les unités, d’en faire un inventaire, de les transcrire en API, et de tenter une première tentative de formalisation en tâchant de circonscrire ces variations locuteur et contextuelles.

Les différentes étapes de la transcription du terrain au laboratoire sont toutes importantes : sur place, nous les phonéticiens, nous travaillons côte à côte pour transcrire ce que nous percevons individuellement afin de confronter nos codes en fonction du niveau de notre compétence du mo piu du moment. Il s’agit donc d’une analyse auditive traditionnelle et comparative.

Figure 2 : Représentation tonale en échelle numérique (1-5) de la diphtongue /ã o/

(mot /pã o/, grenouille), tire2 7, niveaux mélodiques 3-2 2-3.

2 « Tire » en français, formé à partir du mot anglais « tier », ou ligne de description du signal dans le TextGrid de Praat, manuelle ou automatique, en nombre indéfini laissé à la disposition du phonéticien. Ainsi la Figure 2 ci-dessus présente 9 tires superposées.

10 / 26

Au laboratoire, à cette analyse auditive, et aux enregistrements vidéo centrés sur les le bas du visage du locuteur de face et de profil, s’ajoutent d’autres analyses grâce aux outils de visualisation de la substance acoustico-phonétique que nous fournit Praat (Boersma et Weenink, 2011) complété par les scripts MOMEL (Hirst et Espesser, 1993), et MELISM (Caelen-Haumont et al., 2011). Nous pouvons ainsi lors de l’étape de transcription (et d’écriture) dans les TextGrids de Praat, donc sous forme informatique, bénéficier d’une analyse formantique visuelle et quantitative dans la durée, de la courbe de F0, de la courbe d’intensité, avec la possibilité de zoomer une séquence de manière quasi illimitée.

Le script MELISM qui sera probablement rebaptisé pour ses nouveaux développements, outre l’analyse mélodique détectant automatiquement les cibles (points de retournement de la ligne mélodique) et de leur intervalle (appelé « syllabe mélodique »), offre désormais la possibilité d’une part d’écrire en API sur les tires du TextGrid (ou feuille d’annotation) de Praat, ensuite de choisir le nombre de niveaux partageant le registre (de 2 à 9 niveaux) du locuteur. Ces cibles calculées en fonction du registre individuel du locuteur, sont exprimées en demi-tons, puis converties en Hz, en échelle lettres ou numériques (au choix, voir plus loin paragraphe 2.3.2.).

Cette nouvelle formule permet entre autres de transcrire de manière semi-automatique les tons d’une langue. La tire de description manuelle avec ses codes lettres, telles que nous l’avons réalisée en 2009-2010 pour décrire le système tonal, est désormais inutile. Il suffit maintenant de choisir en premier lieu le nombre adéquat de niveaux (de 2 à 9) « tonétiques » puis dans la suite de l’étude, tonologiques, partageant le registre du locuteur.

Figure 3 : Exemple de fichier xls. En haut le fichier montre le détail de la transcription automatique. En bas le même fichier avec la version phonétique corrigée par l’expert et les valeurs tonales (Hz, demi-tons, et codage

numérique en 5 niveaux).

L’exemple Figure 2 ci-dessus montre la réalisation tonale de la diphtongue /ão/ en 2 parties

3-2 et 2-3 du mot /pão/, grenouille. En haut de la figure, dans la fenêtre du fichier

Manipulations, les « pitch points » (ou points de retournement mélodique de la courbe) sont figurés en rouge, et entre ceux-ci les droites suivent la courbe de F0 en la stylisant. Dans une

11 / 26

étape ultérieure de l’étude, il n’est pas certain que le dernier fragment tonal correspondant à

/ɲ/ dans notre exemple, en légère pente ascendante, soit considéré comme discriminant.

La méthode se résout alors

1° à comparer l’efficacité descriptive du nombre de niveaux choisis pour transcrire automatiquement les tons d’une langue, 2° comme pour les analyses mélodiques réalisées depuis l’origine de MELISM, à vérifier et modifier en hauteur mélodique et dans le temps, la position des « pitch points », représentés en vert ou rouge, du fichier Manipulation pour qu’ils s’accordent totalement à la hauteur du son perçu tout en le simplifiant, 3° à établir quelles sont les variations significatives (c’est-à-dire perçues) ou discriminantes (phonologiques) : le fichier Manipulation réalise donc à la fois une interface et une étape intermédiaire entre le son qu’il reproduit de manière semi-automatique permettant d’éliminer les variations non significatives puis non discriminantes, et la transcription mélodique et/ou tonale. Autre amélioration apportée au script MELISM, toutes les données soit manuelles soit issues de la procédure automatique, sont retranscrites automatiquement dans un fichier xls de manière ordonnée et ouverte aux choix du chercheur en fonction du type d’étude qu’il réalise (étiquetage manuel, étiquetage automatique, ou les deux).

La Figure 3 ci-dessus montre un extrait de fichier Excel généré par le script MELISM et reproduisant les données issues du TextGrid en 2 feuilles, l’une montrant le détail du TextGrid de transcription automatique (colonne F), de sa correction (colonne G) et de son évaluation (colonne H), l’autre la version corrigée, montrant en particulier les niveaux découpant l’amplitude mélodique du locuteur en échelle numérique (colonnes I, J). Bien entendu les manipulations de colonnes, de lignes, et calculs du fichier Excel sont toujours possibles, de manière à former par exemple un seul fichier avec l’ensemble des données du ou des locuteurs pour les analyses statistiques.

2.3. La transcription automatique

2.3.1. Principe général

Elle est effectuée à titre expérimental sur le mo piu dans le cadre de deux Projets ANR-CNRS, le premier « AppSy », portant sur la syllabation, et le deuxième « Langues PI » (« PI » signifiant « Peu ou pas Informatisées »). Les langues PI n’ont pas ou peu été traitées de manière informatique, car elles ne disposent pas de corpus informatisé, ni a fortiori de traitements de la parole tels que reconnaissance, traduction, synthèse automatiques, etc. Cette tâche s’inscrit en fait dans un projet plus vaste, celui précisément de doter ces langues PI des technologies de parole, sans avoir à passer par la constitution de corpus, ce dont précisément ils manquent ou sont totalement dépourvus. En effet pour des applications fiables dans les traitements automatiques, il faut disposer d’au moins 20H de parole continue. Cette méthode évite de surcroît de passer par les étapes préliminaires, à savoir description exhaustive des unités phonétiques, création de diphones (ou semi-syllabes pour la synthèse),

12 / 26

etc., comme on l’a fait il y a une cinquantaine d’années pour les langues de diffusion internationale. Dans ce cadre, le mo piu nous sert de langue test dans la mesure où elle représente les conditions extrêmes de cette situation, la langue étant inconnue. Les systems automatiques vont donc « transcrire » selon une méthode pour le moins originale, mais bien sûr avec une aide humaine, cela va de soi (on parle alors de « systèmes automatiques supervisés ou semi-supervisés »).. Pour ce faire, on va d’abord constituer un ensemble d’unités phonétiques de langues supposées proches (mandarin, vietnamien) -et dont on dispose d’un répertoire informatisé de réalisations de phonèmes-, mais aussi de langues éloignées (khmer, anglais, français), réservoir dans lequel le système va aller puiser pour comparer l’unité phonétique mo piu à des unités qui lui sont proches. Le candidat statistiquement le mieux placé sur le plan des paramètres acoustiques et statistiques sera proposé, et écrit en API. Bien entendu le répertoire de langues peut être augmenté (ou diminué) et les transcriptions issues des différentes unités phonétiques de ces groupements de langues, souvent bien entendu différentes, seront alors évaluées par un « expert » phonéticien (lui-même nécessairement en phase d’apprentissage), afin de déterminer quel est l’alliage d’unités phonétiques le plus représentatif de la langue mo piu (et donc l’alliage de langues qui proposent ces unités phonétiques). Une fois cette opération achevée, les unités jugées exactes sont introduites en tant que phonème mo piu, et l’opération est réitérée jusqu’à satisfaction du phonéticien. A terme, une segmentation et annotation semi-automatique est alors possible. L’aide à la segmentation et l’étiquetage linguistique ainsi que les traitements automatiques en technologie de la parole peuvent alors débuter. 2.3.2. La transcription automatique du mo piu et de son évaluation

Un TextGrid comportant une segmentation et annotation automatiques en API se compose d’une tire (cf figure 2 ci-dessous) comportant la succession des unités phonétiques statistiquement les plus proches des sons mo piu sous analyse, par comparaison de leurs propriétés acoustiques et statistiques. Le système segmente en plaçant chronologiquement des barres de segmentation aux bornes de chaque unité phonétique détectée et apparentée à l’une des formes acoustico-phonétiques de son répertoire (ou ensemble de sons d’une ou plusieurs langues). Dans l’état actuel, le logiciel de transcription automatique ne transcrit pas les tons, mais la nouvelle version du script MELISM l’y autorise désormais. La tâche du phonéticien est ensuite d’opérer sur les tires successives :

- sur la deuxième, une segmentation comportant la traduction française, - sur la troisième, une annotation phonétique en fonction de sa perception aidée par

toutes les informations dont il dispose (cf ci-dessus, paragraphe 3.2.), complétée par une symbolisation des erreurs automatiques,

- sur la quatrième, son évaluation de l’unité automatique, - sur la cinquième, des commentaires faisant référence aux mêmes mots répétés et

classés dans d’autres fichiers, et éventuellement des commentaires comparatifs entre ces différentes versions.

13 / 26

Figure 4 : Les tires automatique (tires 1, 6, 7) et manuelles (2 à 5) sous Praat-MELISM

La procédure automatique fournit à son tour pour chaque barre de segmentation

automatique et manuelle, et chaque point du fichier manipulation (cf les « pitch points » en vert ou rouge), les valeurs de F0 en demi-tons, Hz, et codées en échelle lettres (ou au choix, numériques). Pour plus de lisibilité de la figure 4 ci-dessous, nous avons supprimé les tires de codages lettres des niveaux de F0.

Sans vouloir aller dans le détail, nous précisons la symbolique des codes entourant le

codage API, tire 3, dans la mesure où ils participent de la dénotation des unités phonétiques. Les erreurs de codage sont transcrites ainsi :

- concernant les frontières des unités phonétiques et pauses : symbole « % ». Deux cas se présentent : - il peut y avoir tout d’abord une erreur de positionnement. Dans ce cas, en référence à l’unité transcrite par le phonéticien et ses frontières, le symbole % à gauche ou à droite de l’unité indique un déplacement chronologiquement antérieur ou postérieur à celle-ci. - il peut aussi y avoir un ajout ou suppression d’une ou plusieurs frontières, avant ou après l’unité transcrite manuellement comme précédemment. L’ajout est alors transcrit « %+ », la suppression « %-». - concernant les unités phonétiques : symbole « * ». Les possibilités se restreignent à l’ajout ou à la suppression d’une unité, qui par rapport à l’unité du phonéticien, peut être total ou partiel. Le système automatique ayant tendance à hyper-segmenter, dans la très grande majorité des cas il s’agit de suppression totale d’une unité automatique, mais partielle en référence à la voyelle posée par l’expert. Une suppression totale de l’unité automatique existe dans le cas où celle-ci ne correspond à aucune des unités manuelles : par exemple des transitions d’unités peuvent donner lieu à une unité automatique dont la contrepartie manuelle n’existe pas.

14 / 26

Ainsi l’ajout ou suppression à gauche et à droite d’une unité manuelle, se transcrit respectivement par « *+ », « *- ». L’ordre des symboles indique la chronologie des erreurs, et le positionnement à gauche ou à droite de ces symboles localise l’ajout ou la suppression. Par simplification pour le cas -de loin le plus fréquent- d’une suite de suppression de frontières et d’unités phonétiques, le signe « – » est indiqué au bout de la suite : par exemple /a %*%*%*-%/ signifie que l’expert supprime à la droite de l’unité /a/ successivement 3 frontières et 3 unités phonétiques posées automatiquement, et déplace la dernière frontière de droite. Ainsi ces codages symboliques expriment la relation entre le son mo piu et chaque type de transcription, le premier analysé et transcrit de manière automatique, le deuxième perçu par le phonéticien. Par ailleurs la tire 4 (figure 4 et fichier xls, figure 3 ci-dessus) correspond à un codage de l’évaluation de l’étiquetage automatique en 4 points : - « b » = « bon », l’unité est correctement reconnue,

- « v » = « voisin », l’unité est acoustiquement proche sur le plan articulatoire et/ou

acoustique : un seul trait les sépare. Un /ɛ/ est transcrit par exemple pour /a/.

- « a » = « acoustique ». Ce concept est proche du concept « v », sauf qu’il s’applique non pas à l’unité totale, mais à une partie, comme par exemple aux transitions. Ainsi la fin d’une voyelle, en dehors du cas de la nasale vélaire audible, se termine souvent par une fermeture de type nasal, ou encore un souffle qui est parfois transcrit par le système automatique également par une nasale vélaire, une aspiration… Lorsque la perception est en accord, l’unité est évaluée « a ».

- « f » = « faux ». Plus d’un trait sépare l’unité manuelle de l’unité automatique.

Graphique 1 : Taux des erreurs d’étiquetage automatique (correspondant à l’évaluation « faux »).

Une fois cette tâche d’évaluation terminée dans le cadre d’un groupe de langues, on modifie le groupe. Ainsi dans notre cas, une première étude a permis de comparer les scores de 3

15 / 26

groupes de langues : le vietnamien et le mandarin (VNCH), les mêmes auxquelles on a ajouté des échantillons de phonèmes du khmer (VNCHKH), et enfin, à ces trois langues, les échantillons de l’anglais et du français (VNCHKHENFR). De la comparaison des scores, il en est ressorti que l’anglais n’apportait pas d’amélioration des scores, contrairement de manière inattendue, au français. La raison en est que le français comme le mo piu est riche en voyelles nasales. Nous avons donc repris les mêmes fichiers pour évaluer à titre de seconde étude, l’ensemble de langues suivantes composant un répertoire de tous leurs échantillons de phonèmes : vietnamien, mandarin, khmer, français (VNCHKHFR). Enfin à titre de tentative de simplification, nous avons recommencé une troisième fois l’étude en conservant 2 groupes de 2 langues, d’une part le vietnamien et le français (VNFR), et d’autre part le mandarin et le français (CHFR). Les résultats des erreurs (graphique 1 ci-dessus) montrent que le groupe de langues le plus performant dans le cadre de notre étude limitée (monolocuteur, liste de mots, 1360 unités vocaliques et consonantiques) est le CHFR, puis le VNCHKHFR sensiblement à égalité avec le VNFR. En moyenne les voyelles ont de meilleurs scores que les consonnes. Les langues CHFR (18% d’erreurs) et VNFR (20%) ont les meilleurs scores pour les voyelles, mais VNFR affiche un mauvais score pour les consonnes (43%).

Figure 5 : Comparaison de transcriptions différentes en tires 1 du même exemple sonore du mot mo piu correspondant au mot grenouille, en fonction

du groupe de langues (en haut VNCHKH) et en bas (CHFR).

Cette description s’applique en fait aux outils et modes de la transcription et de son évaluation, mais non pas à son contenu. La figure 5 ci-dessus propose un exemple de comparaison entre des transcriptions automatiques différentes (tires 1 respectives) du même

contenu sonore d’un mot mo piu transcrit manuellement (tire 3, /paɤ/) et correspondant au

mot français /grenouille/.

16 / 26

On peut lire en effet que dans le cadre du groupe de langues :

- VNCHKH, le mot mo piu est transcrit sous la forme d’un fragment de pause + /naəl/,

- CHFR, il se réalise sous la forme pause +/naɛn/.

Des transcriptions différentes en écriture API correspondant à la même séquence sonore du mot mo piu, traduisent une relation différente entre son et transcription, phénomène qui existe aussi dans la perception humaine, car l’une et l’autre transcription se réalisent par rapport à un inventaire connu, l’un appartenant à une classe d’éléments acoustiques et statistiques, par définition variable et modifiable à loisir en fonction du choix de langues, l’autre issu de l’expérience humaine. On peut dire ainsi que dans le cadre de la transcription automatique, la différence tient davantage à la méthode utilisée, plus qu’à une « connaissance » dont sont exclus les systèmes automatiques.

3. Ecriture et formalisation prosodique dans le cadre de l’étude du français

Dans cette deuxième partie, nous voudrions montrer comment des unités mélodiques particulières peuvent faire l’objet d’écriture et de formalisations. Cette étude a été menée dans le cadre du Projet PFC (Phonologie du Français Contemporain) de 2004 à 2010, et a donné lieu à de nombreuses publications et thèses, pour différents corpus du français appartenant ou non au protocole PFC (Caelen-Haumont, 2010 ; Morange 2005 ; Vuillet, 2005), et de corpus de langues étrangères comme le bàsàa, (Makasso, 2008). Ces différents corpus et études ont la particularité de s’attacher à décrire le processus mélodique des mots affectivement proéminents dans le discours, signalant une information jugée, consciemment ou non, comme importante, nouvelle, inattendue, ou bien empreinte d’émotion (joie, colère, surprise, etc.). C’est pour ce type de corpus qui nécessitait d’extraire les mots proéminents de la parole continue pour comparaison intra- ou extra-locuteur, que nous avons conçu en 2004, réalisé et augmenté au cours des années, le script MELISM intégré sous Praat (Caelen-Haumont et al. 2004, 2011). L’objectif en fait est d’analyser les variations mélodiques fines afin de pouvoir filer les modulations, et ce pour n’importe quel type de langue (tonale, accentuelle ou pas). Il s’agit donc d’une part d’utiliser un système conventionnel d’écriture (à la fois numérique et alphabétique en correspondance l’un avec l’autre) pour rendre compte d’une structure mélodique (« phonologie de surface »), et d’autre part de tenter d’expliquer les structures en ayant recours à un système avec ses règles et ses codes propres, transposable à d’autres types de langues, donc général, et utilisable dans le domaine des traitements automatiques de la parole. Dans cette intention, nous avions prévu en 2004 de découper le registre du locuteur en 9 niveaux selon la convention d’écriture (A = aigu ; S = supra-haut ; H = haut ; e = élevé ; m = moyen ; c = centré ; b = bas ; i = infra-bas ; g = grave).

Ainsi après avoir découpé en mots les passages de parole continue contenant des mots proéminents (mots « mélismés » ou mélismes) sous Prat, l’analyse automatique qui lui

17 / 26

succède, découpe ensuite l’espace mélodique au sein des mots segmentés3, en fonction des points de retournement significatifs de la courbe de F0. Des « cibles » sont donc automatiquement détectées en ces points. L’espace (qui est en fait une durée) entre deux cibles successives est appelé par analogie « syllabe mélodique » formant avec les autres un « mot mélodique subjectif » ou « mélisme ». Par exemple deux cibles « m » et « S », se succédant chronologiquement (correspondant à des valeurs numériques en demi-tons et Hz détectées automatiquement comme les précédentes, et composant 2 tires superposées)-, composent ainsi la syllabe mélodique « mS ». Le script complète ainsi le TextGrid manuel en indiquant les valeurs de F0 en demi-tons, leur conversion en Hz, et leur codage lettres. Par convention, les niveaux les plus hauts (toujours écrits en majuscules, A, S, H) identifient un mélisme, le plus souvent réalisé avec une amplitude mélodique importante, mêlant ainsi des niveaux aigus et des niveaux moyens ou graves selon des motifs spécifiques. Le choix du codage lettres est intéressant, car il illustre en fait un autre type de relation entre un phénomène mélodique et son écriture. Selon nous, toutes choses égales par ailleurs, il est préférable à un codage numérique car sa simple nature linguistique, même aussi rudimentaire, exprime mieux le caractère affectif de ces mots traduisant une subjectivité qu’une suite de nombres. Inversement un codage tonal, donc systématique et structural, peut mieux se concevoir avec une échelle numérique. 3.1. Le corpus, les mélismes et leurs formalisations

Nous avons constitué une banque de données issues d’enregistrements réalisés dans le cadre d’une même famille, s’étalant sur 4 générations de femmes, exerçant toutes le même métier, et dans la même maison. Il s’agit de viticultrices dans le Haut-Médoc. De leurs enregistrements, nous avons extrait 400 mélismes (100 mélismes x 4), dont nous avons analysé la structure, c’est-à-dire les syllabes mélodiques. Ces dernières sont entièrement automatiques. Il est intéressant de s’intéresser à la nature de ces unités que sont les cibles mélodiques ou les syllabes mélodiques qui joignent simplement comme on l’a vu au paragraphe précédent, une cible et sa suivante : en fait ces unités sont virtuelles dans la mesure où elles dépendent du nombre de niveaux choisi pour découper le registre fréquentiel du locuteur, auparavant défini. Elles résultent aussi bien entendu d’une réalité acoustique qu’elles décrivent à leur manière. Elles sont certainement partiellement subjectives et comme tout type d’annotation, elles résultent d’un choix validé ensuite par l’expérience et l’usage (d’une personne ou d’une communauté). Notre étude a validé ces 9 niveaux pour l’analyse de ces mots subjectifs dans la mesure où elle offrait un degré de précision adéquat c’est-à-dire suffisamment fin pour capter les retournements de la courbe de F0 significatifs, en l’occurrence supérieurs au seuil de perception estimé à 3%. Ce type d’annotation réalise donc une transcription automatique à

3 ou de toute unité découpée, allant de l’unité phonétique à l’ensemble du discours : il suffit pour cela de mettre

une barre de segmentation au début et à la fin de l’unité, quelle que soit sa taille.

18 / 26

partir d’une écriture et d’une formalisation subjective et empirique (les 9 niveaux) automatisées par le script MELISM. Nous décrirons les mélismes brièvement en sélectionnant seulement les informations nécessaires à la compréhension de la problématique visée, transcription, écriture et formalisation.

Graphique 2 : Nombre de mélismes (ou mots mélodiquement proéminents) en fonction du nombre de syllabes mélodiques

Ces 400 mélismes sont d’une très grande variabilité dans le temps, les motifs, les amplitudes mélodiques. Cette variabilité tient pour une part à leur position dans le texte : mélismes devant Pause (MP), au sein d’un syntagme (M), en fin de syntagme sans pause (MF), mélisme par contact (MC ou mot précédant ou suivant le véritable mélisme), et bien entendu aussi à la spécificité des 4 locutrices et à leur âge (Caelen-Haumont 2008, 2010). Nous rencontrons des mélismes à structure globale ascendante (montée de F0), ou descendante, et de manière rarissime des structures en plateaux, que l’on a reclassées parmi les ascendantes ou descendantes. Les structures ascendantes sont de loin les plus nombreuses (82%), les descendantes ne représentant donc que 18% des cas. En guise d’illustration de la variabilité, les mélismes peuvent être constitués par une seule syllabe mélodique (et donc 2 cibles, positionnées sur les frontières gauche et droite de ce mot), ou par plusieurs (dans la grande majorité des cas, outre les cibles de frontières, il en existe d’autres). Le mélisme monosyllabique est bien sûr le cas le plus simple qui allie les cibles exclusivement définitoires, un minimum de F0 à un maximum (A, S, H). Le mélisme le plus complexe du corpus comporte, cas unique, 9 syllabes mélodiques pour un mot lexical de 3 syllabes /draconien/. Nous n’avons pas trouvé de corrélations entre un nombre important de syllabes dans le mot lexical et un nombre élevé de syllabes mélodiques. Comme le montre le graphique 2 ci-dessus, la majorité des mélismes possèdent 3 et 4 syllabes mélodiques. Compte-tenu de cette variabilité, deux types d’études ont été menés pour tenter de la maîtriser. Ces études ont donné lieu à deux types d’écriture et de formalisation, la première sous la forme d’une définition prototypique de la structure des mélismes, la seconde sous la forme d’une analyse des syllabes mélodiques.

19 / 26

3.2. Formalisation de la structure prototypique des mélismes

L’enjeu d’une part était d’ordonner cette variabilité complexe en la ramenant à une seule structure, de viser la simplicité, et d’autre part sa généralité, de manière à la rendre applicable ou en tout cas comparable à d’autres systèmes de langues, et utilisable par les techniques informatiques. Les cibles retenues dans la constitution du prototype sont les suivantes:

1) la frontière de gauche (initiale) du mélisme -en tant qu’unité de la chaîne lexicale et rattaché au contexte par cette cible-, ou pied de l’amorce (Ap),

2) sa frontière de droite (finale) ou pied de la Coda (Cp), fonctionnant en contexte de la même façon que la frontière de gauche,

3) le minimum de F0 ou pied du noyau (Np),

4) le maximum de F0 ou tête du Noyau (Nt), 5) la ou les cibles intermédaire(s) entre frontière initiale et minimum ou corps de

l’amorce (Ac),

6) la ou les cibles intermédaire(s) entre minimum et maximum ou corps du Noyau

(Nc), 7) la ou les cibles intermédaire(s) entre maximum et frontière finale ou corps de la

coda (Cc).

8) A ces cibles, on ajoute une valeur importante concernant les cibles définitoires, à savoir le delta fréquentiel entre maximum et minimum ou ∆PT, qui s’est avéré être pertinent dans l’étude de ces mots (Caelen-Haumont, 1991, 2009).

Les cibles de 1) à 4) sont parfois confondues lorsque les structures comportent 1 ou 2 syllabes mélodiques. Comme déjà précisé au paragraphe précédent, les seules cibles définitoires sont le minimum de F0 noté 3) ci-dessus et le maximum noté 4).

Figure 6 : Prototype d’un mélisme (ou structure mélodique d’un mot proéminent) à structure mélodique

montante, calculé sur la moyenne des valeurs en chaque cible.

20 / 26

Ces diverses cibles se rattachent en fait à une structure en 3 parties (cf figure 6 ci-dessus). Ces 3 parties sont sans doute la résultante d’une programmation de la production de parole, et par ailleurs de la physiologie avec l’inertie des muscles et membranes articulatoires, car nous les retrouvons à propos d’autres structures, comme par exemple celle de l’unité phonétique ou la syllabe, quelle que soit la langue :

- l’amorce, ou phase d’établissement du phénomène, - le noyau ou partie centrale stable, - la coda ou phase de transition vers l’unité suivante.

Les parties en noir Figure 6 sont toujours (NP, Nt, 100%) ou souvent présentes (Nc, 72%). Les parties en grisé sont fréquentes, et plus Cp (65%) que Ap (52%), ou encore rares (Ac, 12% ; Cc, 15%). On note aussi un fait intéressant : les structures mélodiques montantes ou descendantes se sont révélées symétriques, de ce fait on a pu les intégrer pour partie dans les mêmes calculs. En examinant les 400 mélismes, comme leur prototype, on peut comprendre en fait que pour exister, une cible interne, doit pouvoir se démarquer à sa gauche comme à sa droite. Si ce n’est pas le cas, la valeur en fait est rattachée selon le cas, aux valeurs de la cible antérieure ou de la postérieure, et ne constitue donc pas un point de retournement de la courbe significatif. Tout ceci résulte de calculs en termes de supériorité ou d’infériorité numérique par rapport à la valeur de la cible qui précède ou suit la valeur en cours. Ce prototype et ses éléments font donc partie d’un système d’une part d’écriture rendant compte d’une structure mélodique, d’autre part d’explication des valeurs mélodiques qui sous-tendent le discours et lui attribuent une part de sa signification, agissant selon ses règles propres, et général, adaptable à n’importe quel locuteur ou n’importe quelle langue tonale, accentuelle ou pas. De plus ces unités, créées à l’intersection d’une réflexion experte et d’un programme informatique, et correspondant à des valeurs numériques, sont justifiables de tous les calculs automatiques. 3.3. Formalisation de la composition des mélismes

Cette dernière approche était orientée des données vers l’abstraction du fait de la description prototypique des mélismes. Dans cette deuxième partie, nous restons au niveau des données, de leur réalisation et de leur écriture. L’étude s’appuie désormais sur les syllabes mélodiques composant le mélisme. La figure 7 ci-dessous montre le mélisme /grand-père/ avec ces différentes tires d’étiquetage manuel en mots (tire 1), et les tires issues de la procédure automatique MELISM. Ainsi, figure 7 ci-dessous, nous voyons que le mélisme /grand-père/ s’écrit mélodiquement sous la forme de 4 syllabes mélodiques : /bb, bH, Hb, bi/, correspondant aux points de retournement posés de manière semi-automatique dans le fichier Manipulations de la procédure Praat. Ce sont ces suites de syllabes mélodiques qui ont fait l’objet d’analyse et d’études statistiques. Ces études ont mis en lumière grâce à la formalisation un processus très

21 / 26

intéressant : 69% des 400 mélismes présentent en effet un ou plusieurs modes de répétition de leurs syllabes mélodiques.

Figure 7 : Exemple d’un mélisme /grand-père/ sous PRAAT-MOMEL-MELISM, avec en haut le fichier manipulation, en bas, les tire manuelle (mots, tire 1) et automatiques (syllabes mélodiques, tire 2, cibles

mélodiques, tire 3, valeurs en demi-tons, tire 4, et en Hz, tire 5).

Deux processus en fait sont à l’œuvre : la duplication et la symétrie. En ce qui concerne la duplication, elle peut se produire n’importe où dans le mélisme, par exemple :

- au début (le terme choisi pour dénommer ce phénomène est « appel »): locutrice HV1, midi, /bb bH/,

- au milieu (terme « murmure ») : locutrice LR2, remarquer, /ib be ee eH/, - à la fin (terme « écho ») : locutrice LR1, régulièrement, /ig gs SS/, - ou encore à plusieurs endroits à la fois : locutrice SP1, autres, /ii ic cc cH HH/.

Par la duplication, les locutrices ne réalisent rien moins qu’un plateau mélodique, allongeant sur la même note un ou plusieurs segments mélodiques au cours du mélisme. Bien entendu ce procédé est un moyen d’économiser l’énergie quand il faut produire des cibles sur des notes hors du registre moyen, et le plus souvent avec un grand écart mélodique et une durée temporelle plus importante, pour signaler la proéminence à l’attention de l’auditeur. Ce processus compte pour les 400 mélismes, 307 processus de duplication, et cela concerne 240 mélismes, soit 60% d’entre eux. 63 mélismes (16%) ont recours à une double duplication au sein du même mélisme, et dans ce corpus le nombre de mélismes à 3 duplication est rarissime (seulement 2 exemples). La combinaison la plus fréquente est d’associer une duplication des valeurs en plateau au début et à la fin (54% des 63 mélismes). Les locutrices les plus âgées augmentent le nombre de duplication finale par rapport aux plus jeunes, sans doute parce que le temps de programmation de l’encodage de la suite est plus long ou plus réfléchi.

22 / 26

En ce qui concerne la symétrie, 76 mélismes ont recours à ce deuxième procédé (19%). Contrairement à la duplication, il ne s’agit plus ici de plateaux, mais de répétitions de cibles en ordre inverse dans le mélisme. On constate plusieurs types de symétrie :

- simple : locutrice LR1, contact, /cm mc cH He/, - enchâssante : locutrice HV1, soirs, /cm mH HH Hm/, - étendue : locutrice LR2, pas, /HS SH HS/.

Parmi ces 76 mélismes présentant une symétrie, 83% d’entre eux font usage d’une simple symétrie. On note aussi une différence dans le traitement de ce processus en fonction des âges : les locutrices les plus âgées ont tendance à poser les processus de symétrie au début (« appel »), alors que les plus jeunes ont tendance à les réaliser en fin de mélisme (« écho »). Enfin les deux processus peuvent s’imbriquer. Cela concerne seulement 5 exemples mais appartenant aux 4 locutrices. L’exemple vaut ici non pas statistiquement, mais pour l’exemplarité du processus : l’exemple le plus intéressant à cet égard est celui du mélisme draconien, comportant 9 syllabes, et que l’on déjà mentionné ci-dessus : / ib bg gb bi im mm mH Hm mm/ Comparativement aux autres durées des mélismes chez cette locutrice s’échelonnant de 1010 ms à 70 ms, le mot est assez long, sa durée de 610 ms s’inscrivant en 22e position dans l’ordre du plus long au plus court. On observe ici :

- une double symétrie globale de part et d’autre d’une syllabe mélodique isolée sans processus de répétition /mi/, à savoir / ib bg gb bi / et / mm mH Hm mm /,

- dans la première structure, la symétrie centrale / bg gb / est enchâssée dans une autre / ib … bi /, externe,

- dans la suivante, la symétrie centrale /mH Hm/ est aussi enchâssée dans une duplication /mm… mm/,

- enfin chaque structure s’inscrit aussi au sein d’une symétrie, respectivement / ib bg ~ gb bi / et / mm mH ~ Hm mm /.

Tout compte fait, ces alternances de duplication et de symétrie, réduisent le nombre de cibles, tout en modifiant le pattern mélodique et contribuant à l’allongement du mot. Le processus de proéminence est de ce fait facilité au niveau de l’effort physiologique et cognitif. Duplication et symétrie réalisent en fait 2 modes de répétition, soit d’une même cible soit de 2 cibles agissant en paire. Au titre du processus de répétition, nous pouvons les comptabiliser ensemble. Ainsi nous observons (cf Graphique 3 ci-dessous) que la position la plus fréquente des répétitions concerne la position finale dans le mélisme (Echo, ci-dessous en noir), ensuite, celle de la position initiale (Appel, ci-dessus en points), et finalement la position intermédiaire (Murmure, ci-dessous en blanc). Le résultat qui en ressort est très intéressant car non seulement comme on le constate, les processus sont très voisins d’une locutrice à une autre, mais aussi que les différences

23 / 26

opposant les locutrices les unes aux autres, et en particulier les plus jeunes et les plus âgées, se compensent. Cela signifie que chaque locutrice possède une stratégie globale de répétition très semblable, malgré la variabilité extrême des structures des mélismes, mais une stratégie personnelle quant à l’utilisation soit de la duplication, soit de la symétrie, et de leur localisation dans le mélisme.

0% 20% 40% 60%

HV1

SP1

LR1

LR2

Graphique n°3 : Pourcentages de répétitions (duplications + symétries) parmi les 238 mélismes présentant une

répétition simple, en fonction des positions dans le mélisme, et des 4 locutrices HV1, SP1, LR1, LR2.

Poussant plus loin l’analyse, il semblerait que la stratégie globale de répétition concernerait l’usage de la langue en parole, et que les stratégies plus locales, duplication et symétrie, tiendraient davantage aux ressources cognitives et physiologiques des locutrices. 4. Conclusion

Nous avons exemplifié et tenté d’expliquer ce que représentent dans notre expérience, la transcription, l’écriture et la formalisation. Comme nous l’avons remarqué à plusieurs reprises, ces trois étapes sont interconnectées : par exemple la transcription présuppose l’existence et l’accès à une formalisation générale permettant d’écrire de manière symbolique les sons d’une langue. Cette transcription permet ensuite d’accéder à un autre type de formalisation qui dans notre expérience se restreint, dans le cadre de la langue analysée, à établir une relation entre le son perçu et une transcription provisoire. Cette version en état de recherche et de stabilisation, donc épurée, restructurée, modélisée, aboutit finalement à une liste de sons prototypiques de la langue, lesquels seront/sont écrits sous forme symbolique, mais bien sûr transposables en écriture graphique. Cette écriture graphique qui est parfois à construire, demande un autre type de formalisation qui pour le mo piu reste bien entendu à concevoir avec la participation de la communauté. Ainsi la question a été posée aux mo piu de savoir sous quelle forme ils désiraient écrire leur langue, en suivant les propositions élaborées pour d’autres langues hmong ou en utilisant l’alphabet roman modifié du vietnamien (dit alphabet ‘quốc ngữ ou littéralement, de nationalité étrangère)4.

4 Linguistiquement, la différence entre une écriture ‘de type hmong’ et une écriture ‘de type vietnamienne’

réside principalement dans la manière dont seront notés les tons : à l’aide de consonnes finales muettes dans l’écriture Hmong développée par les missionnaires Smalley, Barney et Bertrais dans les années 50 (Niederer 2003 :352), versus avec des accents et signes diacritiques pour une version vietnamienne. Comme souvent, le

Echo

Appel

Murmure

24 / 26

Pour nous, transcrire les formes phonétiques et tonales d’une langue en procédure automatique, qu’il s’agisse d’une langue inconnue ou connue, c’est comparer des échantillons acoustiques et statistiques entre un ensemble de sons (de la même langue ou d’autres langues) en classant leurs distances afin de sortir l’échantillon du répertoire le plus proche. Pour une langue inconnue, les candidats sont plus éloignés de la réalité acoustique du son à identifier, et parmi eux, se mêlent parfois une forme identique, mais aussi des allophones, et des variables plus ou moins proches, d’autres unités acoustiquement plus éloignées, et des frontières instables, souvent plus fréquentes. La tâche du phonéticien est alors de comparer, trier, circonscrire, classer, regrouper afin d’identifier les bonnes formes, mais aussi de déceler l’archétype phonétique, autrement dit le phonème parmi ses variables. Ces formes pseudo-phonémiques ou phonémiques seront introduites par itérations successives dans le système qui à terme fournira une transcription symbolique ou graphique acceptable et des frontières plus conformes. Cet outil semi-automatique constituera une première étape essentielle dans le traitement linguistique ou informatique de la langue inconnue. En procédure entièrement perceptive, transcrire une langue, c’est d’abord annoter en une symbolisation large, ouverte, souple, hyper-dénotée, les sons phonétiques et tonals, et comparer. C’est donc associer à une forme phonétique et/ou tonale, une perception auditive, et selon cas, une perception visuelle à l’aide d’outils spécifiques et de programmes informatiques mettant à disposition au minimum, le spectre, la structure formantique, la courbe de F0, l’intensité, la durée, et de vidéos du locuteur. C’est aussi lui associer par ailleurs une analyse comparative des formes jugées proches en fonction des contextes, des réalisations, des locuteurs. Et c’est finalement utiliser son expérience. Comme précédemment, le phonéticien taillera, élaguera la substance des variantes phonétiques, pour mettre à jour le candidat phonème ou le candidat ton, qui une fois confronté aux unités acoustiquement les plus proches, obtiendra le statut de phonème et son écriture API définitive. Formaliser les formes phonétiques et/ ou tonales d’une langue en procédure automatique, c’est pour l’ordinateur, comparer, distinguer, coder en se fondant sur des outils statistiques, c’est-à-dire sans recours aux connaissances. C’est extraire d’une analyse de grande envergure comprenant au minimum 20 heures de parole continue, des unités aux paramètres acoustiques jugés proches par des procédés statistiques, c’est les rassembler en une cohorte et ordonner les premiers candidats en fonction de certains critères. Si les autres modules de traitement automatique (lexical, morphosyntaxique, syntaxique…) n’existent pas, le tri sera moins efficace et les résultats moins satisfaisants. Si ces autres traitements existent, et qu’il y a une impasse dans la décision, les autres candidats de chaque suite phonétique (syllabe ou mot) seront évalués afin de proposer des formes phonétiques et lexicales correctes. Inversement pour un phonéticien, c’est toujours comparer, distinguer, coder mais plus précisément aussi discriminer, en se fondant sur ses connaissances. C’est au sein d’un

choix de l’écriture revêt aussi un caractère éminemment politique : affirmation d’une différence, volonté de s’identifier à la langue dominante, etc.

25 / 26

système de formalisation préexistant (par exemple le système API), partir de l’inventaire des formes, pour associer, dissocier des unités jugées acoustiquement proches selon les méthodes exposées ci-dessus, afin d’établir un classement de ces unités phonétiques et tonales variant minimalement par un trait ou au contraire par plusieurs, dans le domaine par exemple du timbre, du bruit, de la durée ou du mode (voix craquée par exemple), en un système cohérent et représentatif d’archétypes ou phonèmes, répondant à des critères de simplicité et d’économie. Enfin en ce qui concerne les unités mélodiques, en partant de la transcription automatique des cibles mélodiques réalisée dans le cadre d’un formalisme empirique antérieur (division du registre du locuteur en niveaux fréquentiels), et destinée à décrire le fonctionnement des valeurs mélodiques au sein des mots lexicaux, nous avons réalisé dans le cadre de notre corpus de 400 mélismes, une écriture en « syllabes mélodiques », afin d’éclairer le système sous-jacent des structures des mélismes, d’en comprendre l’agencement et le fonctionnement par le biais de ses unités, de ses règles et de ses modes, passant ainsi d’une description individuelle des locutrices à une généralisation dans le cadre de ces 4 locutrices, mais aussi reproductible et généralisable au français ou à tout autre type de langue. Remerciements

Les enregistrements de la base de données 2011 ont pu être réalisés grâce au support financier du Projet ANR blanc 2011 « AppSy ». Nous voudrions remercier également d’une part Binh Hai Pham, stagiaire à l’Institut MICA qui a réalisé ces enregistrements 2011 audio et vidéo, et d’autre part, Jean-Cyrille Ly Van Tu, étudiant master 2, Paris 3, spécialiste des langues asiatiques, qui a participé à la transcription instantanée du mo piu lors de notre dernier terrain. Références bibliographiques

BOERSMA Paul & WEENINK David, 2011, « Praat : doing phonetics by computer »,Version 5.2.22, téléchargée le 15/04/2011, depuis http://www.praat.org/.

BURNEY, Pierre, L’Orthographe, Paris, Presses universitaires de France, 1955, 1970, coll. « Que sais-je ? ». BLANCHE-BENVENISTE, Claire et CHERVEL André, 1969, 1978, L’Orthographe, Paris, Librairie

François Maspero. Dictionnaire historique de l’orthographe française, 1994, sous la direction de Nina Catach,

1327 pages, Larousse, (ISBN 2-03-340330-0). CAELEN-HAUMONT, Geneviève, 2008, « Melodic prominences structures: exploring to what

extent the speaker variability is spreading », Proceedings of the Acoustical Society of America (ASA), Paris, 3513-3518.

CAELEN-HAUMONT, Geneviève, 2010, « Structuring F0 prominences (melisms): an analysis of the statistical concordances between four French speakers », Speech Prosody 2010, in ed. Barbosa, Madureira et Reis Proceedings of Speech Prosody Conference, Campinas, Brésil, 317-320.

CAELEN-HAUMONT, Geneviève, CORTIAL Brigitte, CULAS Christian, HONG Thom Dinh, LÊ THI

Xuyen, NGUYEN Thanh Ngoc , PANNIER Emmanuel, ROUX Vanessa, SALMON Jean-Pierre, VITTRANT Alice, VUONG Hoang Thi, SONG Ly A, 2010, « Mo Piu minority language: data base, first steps and first experiments », Proceedings of the Second International

26 / 26

Workshop on Spoken Languages, Technologies for under-resourced Languages, SLTU’10, Penang, Malaysia, 42-50.

CAELEN-HAUMONT, Geneviève, 2010, « F0 prominences (melisms): a deeper insight about morphophonology», Speech Prosody 2010 in ed. Mark Hasegawa-Johnson, University of Illinois at Urbana-Champaign, Chicago, USA, 100048:1-4.

http://www.speechprosody2010.illinois.edu/papers/100048.pdf. CAELEN-HAUMONT, Geneviève, AURAN, Cyril, 2004, « The phonology of Melodic

prominence: the structure of melisms », Actes de la Conference Speech Prosody 2004, 143-146.

CAELEN-HAUMONT, Geneviève, PHAM Hai Binh, TRANG Do Dat : « a multilingual tool to annotate automatuically accented, stressed and/or tonal prosody in discourse », Interface Discourse Prosody 2011, University of Salford, Great Manchester, England, 39.

CATACH, Nina, 1986, 1993, L'Orthographe française, Nathan, Paris. CATACH, Nina, GOLFAND Jeanne, DENUX Roger, 1971, Orthographe et Lexicographie, t. I,

Variantes graphiques, mots latins et grecs, mots étrangers, Didier, Paris. HAUDRICOURT, André-Georges, 1951, « Introduction à la phonologie historique des langues

miao-yao », Bulletin de l'Ecole française d'Extrême-Orient, 44, 2, 555-576. HIRST, Daniel et ESPESSER, Robert, 1993, Automatic modelling of fundamental frequency using

a quadratic spline function, Travaux de l’Institut de Phonétique d’Aix, 15, 71-85. MAKASSO, Emmanuel-Moselly, 2008, Intonation et mélismes dans le discours oral

spontané en bàsàa, thèse de doctorat, Université de Provence, Aix-Marseille 1. MATISOFF James A., 1978. Variational semantics in Tibeto-burman : the 'organic' approach

to linguistic comparison. Philadelphia: ISHI Publications. MAYER Mercer, 1969 [2003], « Frog, where are you ? », Penguin USA. MORANGE, Séverine, 2005, Approches structurale, prosodique, psycho-cognitive de

quelques propriétés linguistiques subjectives de la parole : l’exemple de trois

Montmartrois âgés, thèse de doctorat, Université Sorbonne Nouvelle, Paris 3. NIEDERER, Barbara, 2001-2002, « La langue Hmong », Amerindia, 26-27: 347-381. SAVINA, François Marie, 1924, « Histoire des Miao», Imprimerie de la Société des Missions-

Etrangères, Hong-Kong. SWADESH, Morris, 1971, The origin and diversification of Language. Sherzer Joel (ed).

Chicago : Adline. VITTRANT, Alice, 2010, « Aire linguistique Asie du Sud-Est continentale: le birman en

fait-il partie ? », Moussons 16-1, Aix-en-Provence : PUP, 7-38. VUILLET, Jacques, 2005, La part de l’expressivité vocale dans le réglage de l’interaction

et dans l’émergence de conduites langagières lors d’un atelier de langage en début

d’école maternelle, thèse de doctorat, Université Stendhal, Grenoble 2. Projet Trajectoire, CNRS- Fédération Typologie et Universaux du Langage (TUL- FR

2559), http://www.ddl.ish-lyon.cnrs.fr/trajectoire/.

« Transcrire, écrire et formaliser en analyse phonétique, mélodique et tonale : l'exemple d'une...

Documents

Transcript of « Transcrire, écrire et formaliser en analyse phonétique, mélodique et tonale : l'exemple d'une...