Panorama de l’aplicació de les tecnologies lingüístiques al valencià
Àngel Calpe, PhD. AVL 26é Congrés Internacional de Lingüística i Filologia Romàniques, València, 07/09/2010
Classificacions de les TIC (1)
Segons l’objecte: ◦ Text escrit ◦ Llengua oral (reconeixement i síntesi)
Segons la seua naturalesa ◦ dades lingüístiques ◦ aplicacions que tracten les dades lingüístiques
Classificacions de les TIC (2)
Segons la seua finalitat ◦ Tecnologia bàsica → per a investigadors i
desenrotlladors d'aplicacions: analitzadors morfològics i sintàctics, lexicons computacionals, corpus anotats, eines de tractament de l'ambigüitat, etc. ◦ Tecnologia aplicada → orientada a l'usuari,
per a fomentar i facilitar l'ús del valencià: correctors, traductors, diccionaris, etc.
Tecnologies del llenguatge
Aplicacions més populars de les TIC: ◦ Correcció ortogràfica ◦ Diccionaris electrònics ◦ Traducció automàtica ◦ Tecnologia de la veu: sistemes de conversió
text-veu ◦ I entre els investigadors: corpus
Aplicacions generals localitzades en valencià.
COD – Corpus Oral Dialectal
Subcorpus del Corpus de Català Contemporani de la Universitat de BCN
Arreplega dades orals del valencià L’actual projecte d’explotació del COD
pretén: ◦ Compleció de dades del COD ◦ Anàlisi de fenòmens lingüístics x variació dialectal ◦ Anàlisi dialectomètrica i dist. Lingüística ◦ Desenrotllament d’eines de transcripció autom.
Projecte SIGLEVAL de l’AVL
Sistema [de recuperació] d’informació gramatical i lèxica del valencià
Centrat inicialment en fonts escrites Amplitud diacrònica i tipològica de les
fonts Divisió del projecte en dos processos:
1. Creació de corpus de texts 2. Creació del programari adequat per a
explotar el corpus
Projecte SIGLEVAL de l’AVL
Impulsat per les Seccions de Gramàtica i de Documentació Lingüística i Literària de l’Acadèmia Valenciana de la Llengua
Etiquetatge de texts en format TEI En fase de desenrotllament del
programari i de selecció de fonts
SIGLEVAL
Emmagatzemament de les dades: Format textual orientat a la recuperació
de la informació del text → .xml etiquetat en format TEI
Format textual orientat a la visualització i, en el seu cas, a la impressió bàsica → .rtf
Format no textual → imatge (.jpg) ◦ Garantix la comprovació immediata de la
fidelitat a l’original
SIGLEVAL: corpora incials
COGRAV ◦ Corpus Gramatical del Valencià ◦ Obres gramaticals principalment valencianes
però també de la resta del domini lingüístic, normatives o no
CODIVAL ◦ Corpus Diacrònic del Valencià ◦ Selecció de texts de qualsevol gènere
representatius del valencià des del segle XIII fins a finals del segle XX
Atles interactiu de l’entonació del valencià Objectius: ◦ Presentació sistemàtica de materials en àudio
i en vídeo per a l’estudi de la prosòdia i l’entonació dels parlars valencians ◦ estudi de les característiques definidores de
l'entonació valenciana i de la variació existent entre els diferents parlars. ◦ Seguix la proposta Cat-ToBI per a
l’etiquetatge prosòdic
SAÓ – Sistema d’Anotació Ortoèpica
Sistema d’ajuda a la lectura en veu alta del valencià.
Anota texts per a orientar sobre la seua pronunciació correcta
Precisió del 95% Desenrotllat per la Universitat d’Alacant i
l’Acadèmia Valenciana de la Llengua Disponible en línia i descarregable per a
Windows i Linux
SALT: Sistema d’Assessorament Lingüístic i Traducció Desenrotllat per l'Àrea de Política Lingüística
de la Generalitat, Conselleria d'Educació Traductor del parell valencià-castellà en els
dos sentits (des de la versió 3.0) Gran qualitat dels texts traduïts, sobre tot
del llenguatge administratiu Corrector que tb. detecta barbarismes,
perífrasis incorrectes, locucions errònies, combinacions incorrectes de pronoms, etc.
SALT
Conté informació abundant sobre lèxic, qüestions gramaticals, ortotipografia...
Flexió verbal, diccionari monolingüe (v.3.0) i també un bilingüe valencià castellà (v.4.0)
Hi ha dos versions del programa: ◦ Salt 3.0, independent. ◦ Salt 4.0, sobre el Writer d’OpenOffice, per a
per a Windows i per a Linux.
L'anys passat s'anuncià el desenrotllament del parell de traducció valencià-anglés
Traductor: interNOSTRUM
Servici de traducció en línia desenrotllat pel grup d'investigació Transducens del Departament de Llenguatges i Sistemes Informàtics de la Universitat d'Alacant al voltant de l'any 2000
Ha incorporat el parell de traducció castellà → català amb formes valencianes gràcies al Servei de Promoció del Valencià de la UA (model de les universitats)
Apertium
Plataforma de traducció automàtica lliure Permeter fer traductors entre diversos
parells de llengües, inicialment les de l'Estat Espanyol
Hereua dels traductors Internostrum i Universia (es-pt)
Programat des de zero per aconseguir millors resultats
Actualment permet traduir entre vora una trentena de llengües.
Apertium
Proporciona: diccionaris monolingües i bilingues en XML analitzadors morfològics desambiguadors categorials lematitzadors recull de regles contrastives traductors ràpids i configurables per a
molts tipus de formats: txt, rtf, odt, doc, odp, ppt, odx, xls, xml, html, etc.
Parell Apertium es-ca@valencia
Analitza (sentit ca@valencia → es) i genera (sentit es → ca@vaIencia)
Model de llengua: universitats valencianes Lèxic: 38.000 lemes (15.677 noms +
5.622 adj. + 4.096 verbs + 4.503 adverbis + 8.006 noms propis, etc.)
100 regles de transferència per sentit Finançat pel S. de Promoció del Valencià
de Ia UA i desenvolupat per Prompsit
El Corrector (UPF)
Aplicació desenrotllada per la Universitat Pompeu Fabra
Disponible en línia i com a aplicació d’escriptori
Permet fer correccions mantenint la coherència morfològica del text d’acord amb els quatre grans dialectes del valencià-català: català central, català nord-occidental, balear i valencià
Generalitat – C. Educació
A més del traductor/corrector Salt, la C. d’Educació ha apostat per la localització d’una distribució Linux (Edubuntu) que usa l’entorn d’escriptori GNOME coneguda com a LliureX
Està dissenyat per a ser instal·lat en les aules dels centres educatius, però tb. funciona fora
Usa els codis qcv_ES i va per al valencià (no assignats per ISO 639)
Softvalencià
Iniciativa conjunta entre Softcatalà i Escola Valenciana (2005)
Té com a finalitat promoure l’ús del programari en valencià en la C. Valenciana.
Adaptacions al valencià de traduccions prèvies en català oriental de forma automatitzada: consumix pocs recursos
Nom de les traduccions adaptades al valencià: Català (valencià)
Softvalencià
Ús del codi ca-valencia / ca@valencia, acceptat per la IANA (Internet Assigned Numbers Authority) el 2007
L'arrel «ca» identifica a tots els parlants de la llengua (codi ISO 639-1)
La subetiqueta no és un procediment estàndard acceptat per la norma ISO 639, cosa que limita el seu ús
Compta amb un model propi per a donar coherència a les traduccions
Softwarevalencià (Normes RACV)
Iniciativa que elabora localitzacions en valencià seguint les normes de la RACV
Intenció de ruptura total amb la normativa oficial de l’AVL per al valencià i amb el tronc comú de la llengua
Molt actius i organitzats en els últims anys
Softwarevalencià
Aplicacions lingüístiques: Correctors per a OpenOffice i per a
Firefox, i dos correctors en línia Diccionaris bilingües, documentals, de
sinònims i antònims i especialitzats Diversos recursos estàtics Creació d’una Uiquipèdia “privada” amb
més de 6500 articles i a punt d’entrar en les 100 primeres.
Codis que s’usen per al valencià
D’acord amb la norma ISO 639, els codis poden ser ca, cat, o ca_ES
La IANA accepta ca-valencia i ca@valencia Altres codis que s’usen fora de la norma: ◦ es, es_ES ◦ ca_AD ◦ va, val, vac, vc, val_VAL ◦ x-va, x-val, x-vc ◦ qcv, qvc_ES
Petició d’un codi propi
El 2006 la RACV sol·licità un codi propi per al valencià, totalment independent del català (model “a la gallega”)
La resposta inicial del SIL Internacional fon proposar una solució “a la noruega”: un codi paraigües (cat) i un codi per al català central (cln) i altre per al valencià (vac)
La sol·licitud va ser rebutjada però el problema persistix
Conclusions
Milloria notable en els últims anys dels recursos lingüístics orientats al valencià, d’aplicacions lingüístiques específiques per al valencià i de localitzacions al valencià
Persistència de problemes associats a l’estàndard, al model, a la representació i a la codificació de la llengua
És imprescindible sumar esforços si volem mantindre’ns en la carrera de les TIC i treballar per acabar amb el conflicte
Top Related