Panorama de l’aplicació de les tecnologies lingüístiques al valencià

48
Panorama de l’aplicació de les tecnologies lingüístiques al valencià Àngel Calpe, PhD. AVL 26é Congrés Internacional de Lingüística i Filologia Romàniques, València, 07/09/2010

Transcript of Panorama de l’aplicació de les tecnologies lingüístiques al valencià

Panorama de l’aplicació de les tecnologies lingüístiques al valencià

Àngel Calpe, PhD. AVL 26é Congrés Internacional de Lingüística i Filologia Romàniques, València, 07/09/2010

Classificacions de les TIC (1)

Segons l’objecte: ◦ Text escrit ◦ Llengua oral (reconeixement i síntesi)

Segons la seua naturalesa ◦ dades lingüístiques ◦ aplicacions que tracten les dades lingüístiques

Classificacions de les TIC (2)

Segons la seua finalitat ◦ Tecnologia bàsica → per a investigadors i

desenrotlladors d'aplicacions: analitzadors morfològics i sintàctics, lexicons computacionals, corpus anotats, eines de tractament de l'ambigüitat, etc. ◦ Tecnologia aplicada → orientada a l'usuari,

per a fomentar i facilitar l'ús del valencià: correctors, traductors, diccionaris, etc.

Tecnologies del llenguatge

Aplicacions més populars de les TIC: ◦ Correcció ortogràfica ◦ Diccionaris electrònics ◦ Traducció automàtica ◦ Tecnologia de la veu: sistemes de conversió

text-veu ◦ I entre els investigadors: corpus

Aplicacions generals localitzades en valencià.

Corpus i recursos bàsics

COD – Corpus Oral Dialectal

Subcorpus del Corpus de Català Contemporani de la Universitat de BCN

Arreplega dades orals del valencià L’actual projecte d’explotació del COD

pretén: ◦ Compleció de dades del COD ◦ Anàlisi de fenòmens lingüístics x variació dialectal ◦ Anàlisi dialectomètrica i dist. Lingüística ◦ Desenrotllament d’eines de transcripció autom.

Projecte SIGLEVAL de l’AVL

Sistema [de recuperació] d’informació gramatical i lèxica del valencià

Centrat inicialment en fonts escrites Amplitud diacrònica i tipològica de les

fonts Divisió del projecte en dos processos:

1. Creació de corpus de texts 2. Creació del programari adequat per a

explotar el corpus

Projecte SIGLEVAL de l’AVL

Impulsat per les Seccions de Gramàtica i de Documentació Lingüística i Literària de l’Acadèmia Valenciana de la Llengua

Etiquetatge de texts en format TEI En fase de desenrotllament del

programari i de selecció de fonts

SIGLEVAL

Emmagatzemament de les dades: Format textual orientat a la recuperació

de la informació del text → .xml etiquetat en format TEI

Format textual orientat a la visualització i, en el seu cas, a la impressió bàsica → .rtf

Format no textual → imatge (.jpg) ◦ Garantix la comprovació immediata de la

fidelitat a l’original

SIGLEVAL: corpora incials

COGRAV ◦ Corpus Gramatical del Valencià ◦ Obres gramaticals principalment valencianes

però també de la resta del domini lingüístic, normatives o no

CODIVAL ◦ Corpus Diacrònic del Valencià ◦ Selecció de texts de qualsevol gènere

representatius del valencià des del segle XIII fins a finals del segle XX

Atles interactiu de l’entonació del valencià Objectius: ◦ Presentació sistemàtica de materials en àudio

i en vídeo per a l’estudi de la prosòdia i l’entonació dels parlars valencians ◦ estudi de les característiques definidores de

l'entonació valenciana i de la variació existent entre els diferents parlars. ◦ Seguix la proposta Cat-ToBI per a

l’etiquetatge prosòdic

Aplicacions lingüístiques

SAÓ – Sistema d’Anotació Ortoèpica

Sistema d’ajuda a la lectura en veu alta del valencià.

Anota texts per a orientar sobre la seua pronunciació correcta

Precisió del 95% Desenrotllat per la Universitat d’Alacant i

l’Acadèmia Valenciana de la Llengua Disponible en línia i descarregable per a

Windows i Linux

Dic. valencià en línia (Salt 3.0)

DOPV - AVL

DCVB / Alcover-Moll

SALT: Sistema d’Assessorament Lingüístic i Traducció Desenrotllat per l'Àrea de Política Lingüística

de la Generalitat, Conselleria d'Educació Traductor del parell valencià-castellà en els

dos sentits (des de la versió 3.0) Gran qualitat dels texts traduïts, sobre tot

del llenguatge administratiu Corrector que tb. detecta barbarismes,

perífrasis incorrectes, locucions errònies, combinacions incorrectes de pronoms, etc.

SALT

Conté informació abundant sobre lèxic, qüestions gramaticals, ortotipografia...

Flexió verbal, diccionari monolingüe (v.3.0) i també un bilingüe valencià castellà (v.4.0)

Hi ha dos versions del programa: ◦ Salt 3.0, independent. ◦ Salt 4.0, sobre el Writer d’OpenOffice, per a

per a Windows i per a Linux.

L'anys passat s'anuncià el desenrotllament del parell de traducció valencià-anglés

Traductor: interNOSTRUM

Servici de traducció en línia desenrotllat pel grup d'investigació Transducens del Departament de Llenguatges i Sistemes Informàtics de la Universitat d'Alacant al voltant de l'any 2000

Ha incorporat el parell de traducció castellà → català amb formes valencianes gràcies al Servei de Promoció del Valencià de la UA (model de les universitats)

Apertium

Plataforma de traducció automàtica lliure Permeter fer traductors entre diversos

parells de llengües, inicialment les de l'Estat Espanyol

Hereua dels traductors Internostrum i Universia (es-pt)

Programat des de zero per aconseguir millors resultats

Actualment permet traduir entre vora una trentena de llengües.

Apertium

Proporciona: diccionaris monolingües i bilingues en XML analitzadors morfològics desambiguadors categorials lematitzadors recull de regles contrastives traductors ràpids i configurables per a

molts tipus de formats: txt, rtf, odt, doc, odp, ppt, odx, xls, xml, html, etc.

Parell Apertium es-ca@valencia

Analitza (sentit ca@valencia → es) i genera (sentit es → ca@vaIencia)

Model de llengua: universitats valencianes Lèxic: 38.000 lemes (15.677 noms +

5.622 adj. + 4.096 verbs + 4.503 adverbis + 8.006 noms propis, etc.)

100 regles de transferència per sentit Finançat pel S. de Promoció del Valencià

de Ia UA i desenvolupat per Prompsit

Opentrad (basat en Apertium)

El Corrector (UPF)

Aplicació desenrotllada per la Universitat Pompeu Fabra

Disponible en línia i com a aplicació d’escriptori

Permet fer correccions mantenint la coherència morfològica del text d’acord amb els quatre grans dialectes del valencià-català: català central, català nord-occidental, balear i valencià

El Corrector

Localitzacions al valencià

Generalitat – C. Educació

A més del traductor/corrector Salt, la C. d’Educació ha apostat per la localització d’una distribució Linux (Edubuntu) que usa l’entorn d’escriptori GNOME coneguda com a LliureX

Està dissenyat per a ser instal·lat en les aules dels centres educatius, però tb. funciona fora

Usa els codis qcv_ES i va per al valencià (no assignats per ISO 639)

Softvalencià

Iniciativa conjunta entre Softcatalà i Escola Valenciana (2005)

Té com a finalitat promoure l’ús del programari en valencià en la C. Valenciana.

Adaptacions al valencià de traduccions prèvies en català oriental de forma automatitzada: consumix pocs recursos

Nom de les traduccions adaptades al valencià: Català (valencià)

Softvalencià

Ús del codi ca-valencia / ca@valencia, acceptat per la IANA (Internet Assigned Numbers Authority) el 2007

L'arrel «ca» identifica a tots els parlants de la llengua (codi ISO 639-1)

La subetiqueta no és un procediment estàndard acceptat per la norma ISO 639, cosa que limita el seu ús

Compta amb un model propi per a donar coherència a les traduccions

Softwarevalencià (Normes RACV)

Iniciativa que elabora localitzacions en valencià seguint les normes de la RACV

Intenció de ruptura total amb la normativa oficial de l’AVL per al valencià i amb el tronc comú de la llengua

Molt actius i organitzats en els últims anys

Softwarevalencià

Aplicacions lingüístiques: Correctors per a OpenOffice i per a

Firefox, i dos correctors en línia Diccionaris bilingües, documentals, de

sinònims i antònims i especialitzats Diversos recursos estàtics Creació d’una Uiquipèdia “privada” amb

més de 6500 articles i a punt d’entrar en les 100 primeres.

Uiquipèdia (normes RACV)

Codis que s’usen per al valencià

D’acord amb la norma ISO 639, els codis poden ser ca, cat, o ca_ES

La IANA accepta ca-valencia i ca@valencia Altres codis que s’usen fora de la norma: ◦ es, es_ES ◦ ca_AD ◦ va, val, vac, vc, val_VAL ◦ x-va, x-val, x-vc ◦ qcv, qvc_ES

Petició d’un codi propi

El 2006 la RACV sol·licità un codi propi per al valencià, totalment independent del català (model “a la gallega”)

La resposta inicial del SIL Internacional fon proposar una solució “a la noruega”: un codi paraigües (cat) i un codi per al català central (cln) i altre per al valencià (vac)

La sol·licitud va ser rebutjada però el problema persistix

Conclusions

Milloria notable en els últims anys dels recursos lingüístics orientats al valencià, d’aplicacions lingüístiques específiques per al valencià i de localitzacions al valencià

Persistència de problemes associats a l’estàndard, al model, a la representació i a la codificació de la llengua

És imprescindible sumar esforços si volem mantindre’ns en la carrera de les TIC i treballar per acabar amb el conflicte