Carranza, M. (2014). Diseño de aplicaciones para la práctica de la pronunciación mediante...

16
Diseño de aplicaciones para la práctica de la pronunciación mediante dispositivos móviles y su incorporación en el aula de ELE Mario Carranza Departamento de Filología Española, Universitat Autònoma de Barcelona Resumen: En este estudio se abordará el uso de aplicaciones de español como lengua extranjera que incorporan la tecnología del reconocimiento automático del habla para la enseñanza de la pronunciación. Se presentará el funcionamiento de esta tecnología y los mecanismos para poder adaptarla como sistema automático de identificación y corrección de errores de pronunciación en las aplicaciones diseñadas para dispositivos móviles. A continuación, se presentará un prototipo de aplicación de enseñanza de la pronunciación del español que se diseñó en el Departamento de Filología Española de la Universidad Autónoma de Barcelona durante el curso 2013-2014 y se probó con estudiantes de ELE procedentes de China y Japón. Los resultados de las encuestas realizadas mostraron la necesidad de adaptar los materiales de enseñanza a las nuevas tecnologías, como los teléfonos móviles inteligentes, así como las ventajas que estos dispositivos pueden aportar a la enseñanza del español como lengua extranjera. Palabras clave: enseñanza de la pronunciación asistida por ordenador, EPAO, enseñanza de lenguas extranjeras mediante dispositivos móviles, diseño de interfaces, reconocimiento automático del habla, RAH. Introducción Uno de los problemas principales para la enseñanza de la pronunciación de una lengua extranjera es la necesidad de invertir una cantidad considerable de tiempo en la práctica y en la corrección individualizada por parte del profesor. En los cursos de lenguas extranjeras (L2) esto no resulta factible en la mayoría de los casos, puesto que los contenidos de los programas priorizan otros aspectos de la lengua y la logística de los cursos no permite una dedicación tan individualizada. Por esta razón, recientemente ha aumentado el interés en las aplicaciones para la enseñanza de la pronunciación asistida por ordenador (EPAO) como método de autoaprendizaje o de apoyo a las clases presenciales; especialmente aquellas que posibilitan la práctica autónoma por

Transcript of Carranza, M. (2014). Diseño de aplicaciones para la práctica de la pronunciación mediante...

Diseño de aplicaciones para la práctica de la pronunciación mediante

dispositivos móviles y su incorporación en el aula de ELE

!Mario Carranza

Departamento de Filología Española, Universitat Autònoma de Barcelona

!Resumen:

En este estudio se abordará el uso de aplicaciones de español como lengua extranjera que

incorporan la tecnología del reconocimiento automático del habla para la enseñanza de la

pronunciación. Se presentará el funcionamiento de esta tecnología y los mecanismos para poder

adaptarla como sistema automático de identificación y corrección de errores de pronunciación en

las aplicaciones diseñadas para dispositivos móviles. A continuación, se presentará un prototipo de

aplicación de enseñanza de la pronunciación del español que se diseñó en el Departamento de

Filología Española de la Universidad Autónoma de Barcelona durante el curso 2013-2014 y se

probó con estudiantes de ELE procedentes de China y Japón. Los resultados de las encuestas

realizadas mostraron la necesidad de adaptar los materiales de enseñanza a las nuevas tecnologías,

como los teléfonos móviles inteligentes, así como las ventajas que estos dispositivos pueden aportar

a la enseñanza del español como lengua extranjera.

!Palabras clave: enseñanza de la pronunciación asistida por ordenador, EPAO, enseñanza de

lenguas extranjeras mediante dispositivos móviles, diseño de interfaces, reconocimiento automático

del habla, RAH.

!Introducción

Uno de los problemas principales para la enseñanza de la pronunciación de una lengua

extranjera es la necesidad de invertir una cantidad considerable de tiempo en la práctica y en la

corrección individualizada por parte del profesor. En los cursos de lenguas extranjeras (L2) esto no

resulta factible en la mayoría de los casos, puesto que los contenidos de los programas priorizan

otros aspectos de la lengua y la logística de los cursos no permite una dedicación tan

individualizada. Por esta razón, recientemente ha aumentado el interés en las aplicaciones para la

enseñanza de la pronunciación asistida por ordenador (EPAO) como método de autoaprendizaje o

de apoyo a las clases presenciales; especialmente aquellas que posibilitan la práctica autónoma por

parte del estudiante. Estos sistemas permiten a los aprendices de lenguas extranjeras practicar la

pronunciación en un entorno privado, sin situaciones de ansiedad, a su propio ritmo y, mediante la

incorporación de tecnologías como el reconocimiento automático del habla (RAH), con la

posibilidad de recibir evaluación y corrección instantáneas en cualquier momento y en cualquier

lugar (Witt, 2012; Van Doremalen et al., 2013).

No obstante, actualmente es escaso el número de aplicaciones informáticas de enseñanza de

ELE que incorporan esta tecnología. En un estudio anterior (Carranza, 2011), presentamos una

revisión de las plataformas en línea para la enseñanza de español orientadas a estudiantes de habla

japonesa. Ninguna de las plataformas analizadas ofrece un sistema de autoevaluación de la

pronunciación, por lo que el propio estudiante es responsable de juzgar por sí mismo si su

producción se acerca al modelo que se presenta como referente. De entre todas las plataformas,

únicamente el Aula Virtual de Español (AVE) dispone de un servicio de evaluación en su modalidad

de pago, que consiste en una corrección y comentarios asincrónicos de las grabaciones de los

estudiantes por parte de un tutor. Asimismo, se constató la falta de estudios empíricos que analicen

el impacto de los sistemas estudiados en la producción oral de los estudiantes.

Por otro lado, el desarrollo de los dispositivos móviles ha permitido disponer de terminales

tecnológicamente muy avanzados, lo que posibilita el desarrollo de aplicaciones para la enseñanza

de lenguas extranjeras (Mobile Assisted Language Learning, MALL, en sus siglas en inglés). La

facilidad de uso de estos terminales, su portabilidad y el alto grado de motivación que generan en

los estudiantes los convierten en un recurso ideal para practicar aquellos contenidos lingüísticos

que, por falta de tiempo o por cuestiones de logística, no pueden formar parte del currículo de

contenidos en los cursos presenciales de español L2 (Milliner, 2012; Neri et al., 2003).

El apartado 1 se centra en el debate sobre el uso de sistemas informáticos como recurso para

la enseñanza y el aprendizaje de la pronunciación de una lengua extranjera. Expondremos el estado

de la cuestión, así como los logros y las críticas que ha suscitado la incorporación de la tecnología

en este ámbito. En el apartado 2 resumiremos cómo funciona la tecnología del reconocimiento

automático del habla y las técnicas que permiten adaptar el sistema para el reconocimiento del habla

no nativa y, en concreto, para la corrección automática de la pronunciación de una lengua

extranjera. A continuación, en el apartado 3 presentaremos un prototipo de aplicación para la

enseñanza de la pronunciación del español L2 desarrollado en el departamento de Filología

Española de la Universidad Autónoma de Barcelona. Este prototipo fue probado y evaluado por

estudiantes chinos y japoneses de ELE de niveles B1 y B2. Los resultados de esta evaluación se

ofrecen igualmente en el apartado 3. Para terminar, el apartado 4 incluye una breve discusión sobre

los resultados obtenidos y las conclusiones generales sobre la manera de optimizar estas

aplicaciones para su uso como recurso tecnológico en la enseñanza del español L2.

!1. La enseñanza de la pronunciación asistida por ordenador (EPAO)

Muchas herramientas de enseñanza de lenguas asistida por ordenador (ELAO) incorporan

actividades para practicar la lengua oral; sin embargo, el habla del estudiante no es posteriormente

procesada ni evaluada. A pesar de que la producción oral ya supone una actividad positiva para el

aprendizaje, una de las críticas que han recibido estos programas es la imposibilidad de evaluar la

pronunciación del aprendiz. Una posible solución consiste en incorporar ejemplos de hablantes

nativos que proporcionen al estudiante referentes de pronunciación. No obstante, la autoevaluación

presenta serias limitaciones, especialmente en el caso de la pronunciación de una L2, puesto que los

aprendices muestran dificultades en discriminar perceptivamente ciertos contrastes fonológicos de

la L1 (Llisterri, 2007; Strik, 2012). Por otro lado, el término “error de pronunciación” resulta difícil

de definir. No existe un consenso sobre lo que es “correcto” o “incorrecto” en la pronunciación no

nativa, por lo que más bien debería plantearse la existencia de un continuo entre dos extremos;

desde una elocución totalmente ininteligible hasta un habla cercana a la nativa (Zahra et al., 2012).

Varios estudios han demostrado, además, que la aceptabilidad de la pronunciación no nativa

muestra un alto grado de variabilidad entre los hablantes de la L1 (Cucchiarini et al., 2002; Witt,

2012).

La corrección de la pronunciación dentro del aula puede provocar ansiedad en el estudiante,

especialmente si se le pide que produzca un par de sonidos que no contrastan en su L1 y que el

estudiante es incapaz de distinguir perceptivamente; en ocasiones, esta práctica puede resultar

contraproducente, ya que unos niveles altos de ansiedad pueden llegar a bloquear la adquisición.

Por lo tanto, en una situación ideal el profesor debería dedicar tiempo a cada estudiante para

corregir de manera individual los problemas de pronunciación; sin embargo, esto resulta

prácticamente imposible de llevar a cabo debido, principalmente, a la falta de tiempo y de recursos

en la mayoría de clases de L2.

Tal situación ha suscitado una búsqueda de sistemas de aprendizaje y de práctica de la

pronunciación que permitan al estudiante trabajar este aspecto de manera individual, a su propio

ritmo y en un contexto relajado. La tecnología del reconocimiento automático del habla (RAH) se

ha desarrollado hasta niveles de aceptabilidad tales que permiten su adaptación como procedimiento

de evaluación automática de la pronunciación de una legua extranjera (LaRocca, 1994; Eskenazi,

1999; Neri et al., 2003; Witt, 2012). Las ventajas que se han destacado de estos sistemas son, en

primer lugar, la posibilidad de práctica ilimitada, –el estudiante produce una mayor cantidad de

contenido oral que en una situación clásica de aprendizaje de una L2 en el aula–. En segundo lugar,

los sistemas de aprendizaje autónomo se puede utilizar en un entorno privado, una situación más

favorecedora para la práctica de la pronunciación ya que disminuye la posible ansiedad presente

dentro del aula. Asimismo, la adquisición de los sonidos de una L2 es una tarea que requiere una

gran cantidad de práctica, en ocasiones reiterativa. Por lo tanto, automatizar estas actividades,

permite disponer del tiempo de clase para una puesta en práctica de lo aprendido de manera

autónoma, pero en una situación comunicativa real (Ehsani y Knodt, 1998).

Por otra parte, los sistemas de EPAO también han recibido ciertas críticas y existe un cierto

escepticismo en lo que se refiere a su efectividad. Las críticas se han centrado en el tipo de

interacción oral entre el estudiante y el sistema, puesto que en la mayor parte de los casos el

estudiante no desempeña un papel activo. Aunque la actividad demande una respuesta oral por parte

del estudiante, este se limita a imitar el modelo o a elegir una de las respuestas de un conjunto de

posibilidades (Bernstein, 1994). Las herramientas de enseñanza de la pronunciación en L2 no

permiten al estudiante total libertad en la creación de su discurso, debido a las limitaciones que

imponen los sistemas de RAH, que necesitan una elevada capacidad de predicción para reconocer

adecuadamente la señal sonora. Los desarrolladores utilizan técnicas paliativas para impedir que el

sistema califique como incorrecta una articulación que no es errónea (situación denominada “falso

rechazo”) e interrumpa así el desarrollo de la actividad, a pesar de que la pronunciación del

estudiante haya sido adecuada. La mayor parte de las críticas que ha recibido la enseñanza de la

pronunciación asistida por ordenador son debidas a las elevadas expectativas en lo que se refiere a

la tecnología del RAH y al desconocimiento de sus límites (Neri et al., 2003; Strik, 2012). El

reconocimiento del habla no nativa se enfrenta a problemas complejos debidos, principalmente, a la

variabilidad del discurso no nativo. Muchas de las herramientas de EPAO emplean sistemas

comerciales de RAH orientados al reconocimiento de hablantes nativos, por lo que al tratar de

reconocer la articulación de un hablante no nativo los niveles de reconocimiento disminuyen

considerablemente; esto provoca que el sistema marque como incorrectas pronunciaciones

adecuadas, lo que provoca frustración en el estudiante. Otra crítica que han recibido estos sistemas

se refiere al tipo de retroalimentación que proporcionan al alumno. Algunos sistemas proporcionan

una evaluación numérica o una ayuda visual para que el estudiante comprenda el tipo de error que

ha cometido, pero la mayoría de los sistemas disponibles en el mercado se limitan a valorar la

producción del alumno como correcta o incorrecta, lo que resulta insuficiente puesto que no

especifica el motivo de la evaluación ni qué sonidos han sido los que el estudiante ha articulado

incorrectamente.

Así pues, resulta necesario plantearse cuáles son los beneficios de incorporar estos sistemas

en la enseñanza de lenguas y qué metodología resulta más adecuada para su uso como recurso de

aprendizaje. Se ha demostrado que el nivel tecnológico al que han llegado los sistemas de

reconocimiento actuales permite su empleo como un sistema de evaluación de la pronunciación no

nativa, puesto que los niveles de identificación de errores son comparables a las evaluaciones

realizadas por especialistas nativos (Cucchiarini et al., 2012). Sin embargo, el reconocimiento

automático del habla todavía se enfrenta a varios retos para su óptima utilización como

procedimiento de corrección automática de errores de pronunciación (Witt, 2013). La tecnología

actual no es capaz de alcanzar un nivel elevado de identificación de errores cuando se enfrenta a un

discurso totalmente espontáneo o cuando la señal sonora pierde calidad debido a la interferencia de

ruidos externos. Asimismo, la evaluación y la retroalimentación (feedback) de la mayor parte de los

sistemas comerciales no informan detalladamente a los estudiantes sobre sus problemas concretos

de pronunciación. Sería conveniente que estas herramientas los orientaran hacia la manera de

solucionar las dificultades mediante ejercicios y actividades centradas en sus problemas específicos.

La interfaz podría proporcionar un feedback visual, que incorpore información detallada sobre los

movimientos que deben realizar los articuladores para la producción del sonido. Finalmente, es

importante que los sistemas de EPAO proporcionen un modelo de L1 lo suficientemente variado y

abundante, que permita a los aprendices extraer los rasgos acústicos que identifican los contrastes

fonológicos y los patrones prosódicos de la L2. Estas “debilidades” de la tecnología pueden

compensarse con un diseño adecuado de las actividades, enfocado en la interactividad del usuario

con la aplicación, y que proporcione un feedback suficientemente significativo y pertinente, que

ayude al estudiante a entender el error y a corregirlo (Wachowicz & Scott, 1999).

!2. Adaptación de la tecnología del RAH en aplicaciones para la enseñanza de la pronunciación

La arquitectura de un sistema de RAH se compone de diferentes módulos de análisis que

intervienen de manera independiente y consecutiva en la señal sonora del habla y proporcionan

finalmente una representación de esa señal, normalmente en forma de texto escrito. Actualmente

estos sistemas están basados en cálculos estadísticos y utilizan algoritmos complejos para

determinar la probabilidad de que una determinada observación de la señal sea identificada, a partir

de medidas acústicas, como una realización de una de las unidades codificadas previamente durante

el entrenamiento; estas unidades pueden consistir en sonidos, fonemas, palabras u oraciones en

función del módulo de análisis. En la figura 1 se muestra un esquema de los módulos que componen

un sistema de RAH basado en análisis estadístico.

Figura 1: Esquema de los componentes de un sistema de reconocimiento automático del habla

En primer lugar, los modelos acústicos se desarrollan durante una fase de entrenamiento,

donde el sistema recibe una elevada cantidad de datos orales junto con sus correspondientes

transcripciones ortográfica y fonológica canónica. De esta manera se entrena al reconocedor para

que asocie unas medidas acústicas determinadas a una unidad sonora de la lengua que ha de

reconocer. Al final de la fase de entrenamiento, el sistema ha desarrollado uno o más modelos

acústicos por cada unidad sonora de la lengua. Cuando el sistema debe descodificar una señal

sonora desconocida, en primer lugar el módulo de procesamiento muestrea la señal sonora; a

continuación, se segmenta la señal empleando ventanas de análisis y se obtiene un conjunto de

medidas acústicas (MFLC) para cada segmento, que posteriormente se comparan estadísticamente

con los modelos acústicos creados durante la etapa de entrenamiento. El sistema proporciona una

lista de frecuencias de los modelos que poseen una mayor probabilidad de corresponder con las

medidas acústicas obtenidas en el análisis. Finalmente, el modelo de lenguaje se encarga de

seleccionar la secuencia más probable de fonemas para esos modelos recurriendo a un diccionario

de pronunciación y, una vez generada la salida fonética, identifica la secuencia de palabras y la

transcribe ortográficamente.

!!

2.1. La evaluación del habla no nativa mediante sistemas de RAH

La tarea de la evaluación del habla no nativa mediante sistemas de reconocimiento

automático consiste en definir la distancia entre la pronunciación del hablante no nativo y un

“agrupamiento” (cluster, en inglés) de los modelos acústicos de pronunciación de hablantes nativos.

Cuanto menor sea la distancia, más cercana se encuentra la pronunciación del hablante no nativo a

una pronunciación nativa. Existen diferentes técnicas estadísticas para medir esta distancia, en

función de si el tipo de habla es lingüísticamente homogéneo (hablantes de una misma L1) o

heterogéneo (hablantes de diferentes L1). Las investigaciones con grupos lingüísticos homogéneos

han obtenido resultados con un incremento en la precisión de detección del error (Ito et al., 2007)

que con grupos lingüísticamente heterogéneos. Este incremento es debido a que si se conoce

previamente la L1 del estudiante se pueden utilizar modelos acústicos tanto de la L1 como de la L2,

lo que mejora la tasa de reconocimiento y, por lo tanto, permite una mayor libertad en el diseño de

las actividades. En segundo lugar, los errores de pronunciación dependen en gran medida de la L1

del estudiante, por lo que si se conocen los errores de pronunciación más frecuentes de los hablantes

de una determinada L1 se pueden añadir reglas de pronunciación que describan las pronunciaciones

no nativas en los diccionarios de pronunciación del sistema de RAH y diseñar actividades

orientadas a corregir esos errores específicos (Van Doremalen et al., 2013; Burgos et al., 2014). El

rendimiento del sistema de reconocimiento mejora si está adaptado a hablantes de una lengua en

particular. En este caso se puede predecir el error a partir de una lista que contenga las frecuencias

de aparición de los errores de pronunciación y generar modelos acústicos de las pronunciaciones no

nativas, así como incorporar rasgos acústicos que identifiquen los errores si el sistema de RAH se

ha entrenado con habla no nativa. Sin embargo, para obtener estas listas de frecuencias de errores

son necesarias grandes bases de datos, o corpus, de L2 transcritas en los niveles fonético y

fonológico, y con los errores de pronunciación anotados para que el sistema de RAH sea capaz de

procesarlos. Para evaluar las características prosódicas se utilizan algoritmos que comparan la

frecuencia del fundamental (F0) del estudiante con la de los modelos de hablantes nativos. También

se ha investigado la importancia de la duración (Tajima et al., 1994, 1996; Eskenazi, 1999) para

identificar errores de ritmo; en este caso, las medidas de discrepancia obtenidas mediante RAH son

coherentes con los juicios emitidos por evaluadores nativos experimentados (Bernstein et al., 2011).

Una explicación detallada de las diferentes técnicas que se utilizan para detectar automáticamente

los errores de pronunciación en habla no nativa se puede consultar en Ehsani y Knodt (1998) y en

Strik (2012).

!

2.2. Técnicas de corrección y “feedback”

La evaluación y corrección del habla no nativa mediante RAH permite incorporar un

feedback, o respuesta, a la pronunciación del estudiante, sea mediante una puntuación (score) de la

distancia entre su pronunciación y la del modelo, o mediante una ayuda visual que permita

comprender al aprendiz dónde ha cometido el error y cuál es la pronunciación correcta. Los

sistemas de EPAO han utilizado comúnmente ayudas visuales tales como representaciones de la

forma de onda de la señal sonora, cortes sagitales (vídeos, fotografías) que representan la posición

de los articuladores en la producción del sonido-meta, curvas melódicas para representar la

entonación, etc. En algunas ocasiones no es evidente que estas ayudas supongan un beneficio claro

para la corrección de la pronunciación por parte de los propios estudiantes (Llisterri, 2007)

Cabría diferenciar, por tanto, el feedback sobre los errores segmentales del que se centra en

los errores suprasegmentales. LaRocca (1999) propone guiar a los estudiantes sobre cómo articular

el sonido mediante imágenes que representen los movimientos que deben realizar los articuladores,

ya que se trata de sonidos nuevos y los estudiantes no están acostumbrados a los movimientos

necesarios para producirlos. En cambio, los errores suprasegmentales son más evidentes para los

aprendices puesto que los parámetros acústicos que caracterizan los elementos prosódicos son los

mismos en todas las lenguas, por lo que en este caso resulta más adecuado mostrar un modelo de

referencia sobre el que practicar. El uso de pares mínimos en la corrección de errores segmentales

ha proporcionado resultados positivos (Bradlow et al., 1997; Dalby y Kewley-Port, 1999; Ito et al.,

2007; Zuo et al, 2011); no obstante, es necesario considerar que si un sonido no pertenece al

repertorio fonológico de la L1 del estudiante, este tiende a relacionarlo con el sonido más cercano

en su L1, por lo que una instrucción detallada de cómo articular el sonido de la L2 podría beneficiar

la propiocepción, de manera que el estudiante pueda “sentir” cuándo los articuladores están

colocados adecuadamente para producir el sonido-meta; asimismo, será necesario un entrenamiento

auditivo para que el estudiante consiga discriminar perceptivamente los sonidos de la L2 que tiende

a confundir. Esta técnica se ha utilizado con éxito para enseñar la diferencia entre los fonemas /r/-/l/

a estudiantes japoneses (Bradlow et al., 1997); aun así practicar la distinción entre dos sonidos de la

L2 únicamente mediante pares mínimos puede resultar excesivamente monótono para el estudiante

si la actividad no está adecuadamente contextualizada. La representación visual de la entonación

mediante curvas melódicas sirve para comparar la entonación del estudiante con la curva melódica

propuesta como modelo (Tajima et al, 1994, 1996). El alumno puede practicar las veces necesarias

hasta lograr que su curva melódica se acerque progresivamente a la del modelo; no obstante, es

necesario advertir de que el hecho de que una entonación no sea exactamente igual a la de un

modelo propuesto como canónico no quiere decir que necesariamente los hablantes nativos la

evalúen como incorrecta. Otras medidas acústicas, como la duración o la intensidad, se han

utilizado para evaluar la fluidez del discurso no nativo (Eskenazi, 1999)

2.3. Experiencias de aplicaciones metodológicas

A pesar de que el uso de dispositivos móviles para la enseñanza de lenguas extranjeras es un

campo relativamente reciente, existen algunos estudios que muestran experiencias docentes

diseñadas para incorporar aplicaciones móviles en la enseñanza de la producción oral, en especial

haciendo uso de podcasts (Abdous et al., 2012) para la práctica de la expresión oral. Milliner (2012)

utilizó una combinación de varias aplicaciones disponibles en el mercado, entre ellas Dragon

Dictation, un programa de dictado automático mediante RAH, para enseñar y facilitar la práctica de

contrastes fonológicos del inglés L2 a estudiantes de habla japonesa. Esta experiencia docente

muestra la incorporación de diferentes tecnologías del habla en el aula de lenguas extranjeras en un

entorno presencial. Muchas de estas tecnologías, como el dictado automático, se encuentran

instaladas de manera gratuita en la mayor parte de teléfonos móviles inteligentes disponibles en el

mercado, y pueden aprovecharse en la clase de idiomas. Es necesario considerar, no obstante, que

originalmente se han diseñado para usuarios nativos, por lo que el rendimiento del reconocedor

disminuirá al intentar reconocer habla no nativa, tal como advertimos en el apartado 2.1.

!4. Diseño de una app para la enseñanza y práctica de la pronunciación de una L2

A continuación presentaremos un prototipo de aplicación para la enseñanza de la

pronunciación del español L2 desarrollado en el Departamento de Filología Española de la

Universidad Autónoma de Barcelona. Este prototipo fue probado y posteriormente evaluado por 20

estudiantes chinos y japoneses de español L2 de nivel intermedio-avanzado (B1-B2). El prototipo se

diseñó con dos objetivos: evaluar el nivel de aceptación del uso de apps como material

complementario a las clases presenciales de ELE e identificar los aspectos de la aplicación que los

alumnos consideran más efectivos y los que mejorarían.

!4.1. Diseño del prototipo

El prototipo se diseñó mediante el programa de edición Just in Mind, que imita una

aplicación real de un teléfono móvil y se programó en HTML. Just in Mind es un programa de

creación de prototipos para el desarrollo de software, que permite realizar diseños muy cercanos a la

realidad final del producto; en el caso de los teléfonos y tabletas, permite también crear botones y

otros gadgets que pueden emplearse en una pantalla táctil. Para este prototipo nos centramos en

diseñar el menú general de la aplicación y dos tipos de ejercicios: uno de pronunciación y otro de

discriminación de sonidos, ambos relacionados con el contraste en español entre los fonemas /r/-/l/

y /ɾ/ (véase la Figura 2). Este contraste de sonidos fue escogido debido a la dificultad que muestran

los estudiantes chinos y japoneses para discriminarlos, ya que en sus lenguas no contrastan

fonológicamente (Bradlow et al., 1997)

Figura 2 : Menú inicial y pantalla de configuración de la cuenta personal del usuario

El prototipo presupone la existencia de una explicación, anterior a las actividades prácticas,

sobre la diferencia entre estos tres sonidos, la manera de articularlos y las grafías con las que se

representan en español. La primera actividad (véase la Figura 3) consiste un ejercicio de

discriminación de diez pares mínimos, en el que el estudiante deberá escuchar una palabras y

escribirla en un cuadro de texto. El sistema evalúa automáticamente si la palabra introducida es

correcta o no y proporciona un resultado en términos de “correcto/incorrecto”. En la actividad 2, el

estudiante tiene que practicar la pronunciación de los tres sonidos mencionados repitiendo la

palabra que escucha en la voz del hablante masculino que realizó la grabación. Se recupera el

mismo vocabulario utilizado en la actividad anterior y se añade un dibujo a cada uno de los ítems

para que el estudiante relacione la palabra con su significado. En este caso, en la aplicación real se

utilizaría la tecnología del RAH para evaluar la pronunciación del estudiante y proporcionar un

feedback significativo (una puntuación y una explicación del error concreto) en cada uno de los

ítems. Sin embargo, resultó imposible adaptar un sistema de RAH para la evaluación automática por

lo que se optó por proporcionar una evaluación simulada que imita cómo funcionaría la evaluación

automática en la versión final (Figura 3)

Figura 3 : Actividades incluidas en el prototipo

4.2. Evaluación

Se solicitó a los estudiantes que descargaran el prototipo en sus teléfonos móviles y lo

probaran durante una semana; aquellos que no disponían de un dispositivo con iOS utilizaron el

prototipo en línea mediante un navegador. Los estudiantes recibieron instrucciones sobre el modo

de empleo del prototipo y sobre las actividades que debían realizar. Al final del período de prueba,

rellenaron una encuesta sobre su experiencia. En la primera parte se incluyeron preguntas

relacionadas con los años de estudio de español, su estilo de aprendizaje –especialmente el uso de

recursos digitales–, y el empleo de dispositivos móviles. La segunda parte se centra en la

experiencia con el prototipo, por un lado como recurso pedagógico y, por el otro, desde la

perspectiva del diseño y de la interfaz; se pidió a los estudiantes que indicaran con qué aspectos

estaba más satisfechos y qué aspectos consideraban que era necesario mejorar.

4.3. Resultados y discusión

La percepción de los estudiantes sobre los aspectos más difíciles del español se valoró

mediante las respuestas a partir de una escala desde 1(muy fácil) hasta 5(muy difícil) para cualificar

el grado de dificultad de los diversos aspectos sobre los que se preguntaba en la encuesta. Los

resultados fueron los siguientes (por orden decreciente): la comprensión oral (3,9), el léxico (3,5), la

sintaxis (3,35), la morfología (2,75), y la pronunciación (2,7). Ello parece indicar la percepción de

una menor dificultad de la pronunciación frente a otros aspectos lingüísticos del español. En el caso

de los estudiantes que marcaron “utilizo programas de ordenador o aplicaciones para teléfono

móvil” como una forma de practicar español, la respuesta desglosada indica el uso mayoritario de

diccionarios en línea (como WordReference), el servicio de traducción automática de Google, de

versiones digitales de periódicos y de otros medios de comunicación en español (El País, El Mundo,

El Economista, La Vanguardia, RTVE, entre otros) y de conjugadores automáticos de verbos. La

única app que fue mencionada fue Duolingo. Todos los estudiantes disponían de teléfono móvil

inteligente o tableta, y el 55% respondió que utilizan apps de contenidos educativos en estos

dispositivos. Respecto al uso de teléfonos móviles para la enseñanza de español, los estudiantes

muestran cierto interés por esta posibilidad (“Los teléfonos móviles pueden servir para estudiar

lenguas”: 3,95; “Con una app de español repasaría y practicaría en mis ratos libres”: 3,7).

La evaluación del prototipo reflejó un elevado grado de satisfacción, puesto que todos los

aspectos se calificaron por encima de la media en una escala del 1 al 5; los estudiantes valoraron

positivamente la información clara y las explicaciones de los ejercicios (4,15) y en menor medida

los aspectos relacionados con la funcionalidad de la app (3,55), lo que resulta comprensible a causa

de las limitaciones del prototipo. La interfaz obtuvo resultados más bajos debidos principalmente a

la elección de los colores (2,9); los demás elementos se calificaron por encima de la media. En

cuanto a la experiencia de usuario, los resultados positivos destacan la facilidad de uso (4), la

utilidad (3,9) y la diversión (3,2). Cabe destacar que un 75% de los estudiantes estaría dispuesto a

comprar la app si existiera.

Las sugerencias apuntaron la necesidad de que la interfaz esté traducida a la lengua del

alumno, lo que tiene sentido puesto que el usuario medio de una app puede ser una persona sin

conocimientos de la lengua. Otra de las críticas se centró en el formato de los ejercicios: el hecho de

presentar el vocabulario aislado resulta repetitivo y falto de contexto –como ya se señaló en el

apartado 2.2–, por lo que sería necesario enmarcar las palabras en oraciones; lo que aportaría un

contexto significativo de la palabra, así como su inclusión en una curva entonativa. Lo ideal sería

presentar los estímulos en un contexto lo más realista posible, por ejemplo dentro de un diálogo

interactivo. También se puso de relieve la necesidad de explicaciones más detalladas sobre los

errores específicos en el feedback que proporciona la app.

Las críticas que recibió la interfaz abogan por la simplificación de elementos y colores;

parece que los estudiantes prefieren interfaces más limpias, sencillas y funcionales. Se criticó

especialmente el uso de dibujos en el menú principal (son preferibles fotografías) y los colores de la

tipografía. Muchos estudiantes consideraron que incluir personajes animados a la app aportaría al

programa de un aspecto más lúdico. En cambio, otros estudiantes rechazaron esta opción

precisamente porque entonces se confundiría la app con un videojuego. Es interesante resaltar este

aspecto, muchos estudiantes prefieren distinguir de manera clara las apps dirigidas a la educación

de las apps de entretenimiento mediante la interfaz y el icono de la aplicación, que debe tener un

diseño serio y evitar la referencia a cualquier personaje. También se indicó la necesidad de añadir

más voces nativas diferentes al modelo de pronunciación y la posibilidad de crear una cuenta nueva

a partir de otra cuenta en una red social, lo que permitiría compartir logros, puntuaciones y avances

en el uso de la aplicación. Por otro lado, se indicó la posibilidad de que el sistema fuera capaz de

guardar la información sobre los errores más frecuentes y seleccionara actividades específicas para

corregirlos, es decir, que se adaptara a los errores más persistentes del usuario. Finalmente se

sugirió la incorporación de una función para avisar al usuario de cuándo y cuánto tiempo debe

practicar con la aplicación, de forma que el sistema organice por sí mismo el aprendizaje.

Finalmente, surgieron ideas innovadoras sobre el tipo de ejercicios que podrían desarrollarse

aplicando la tecnología del RAH. Además de los ejercicios clásicos de repetición de pares mínimos,

sería necesario encontrar la manera de realizar ejercicios más interactivos, por ejemplo la

identificación de objetos, el movimiento de un objeto o personaje mediante comandos de voz, o la

participación del usuario en un diálogo simulado, mediante respuestas de opción múltiple o libres.

Estos diálogos deberían simular situaciones de la vida cotidiana y aportarían información sobre

aspectos culturales y pragmáticos a los contenidos. También se indicó que el RAH no debe limitarse

a las actividades de pronunciación, sino que puede incorporarse en otro tipo de actividades, como

las centradas en la morfología o en la sintaxis. Para acabar, se indicó la posibilidad de añadir

canciones, karaoke, trabalenguas, poesía y otras actividades que también se suelen utilizar para la

práctica de la pronunciación en las clases presenciales de ELE.

!5. Conclusiones y propuestas de incorporación de las aplicaciones de teléfonos móviles como

recurso para el aprendizaje del español como lengua extranjera

La adaptación del RAH como herramienta de corrección automática de la pronunciación de

una lengua extranjera exige prestar una especial atención al diseño de actividades, con el objetivo

de incorporar la tecnología de la manera más adecuada, teniendo en cuenta sus limitaciones. Para

empezar, toda aplicación debería disponer de un apartado que muestre los sonidos vocálicos y

consonánticos del español, con ejemplos de varios locutores, tanto masculinos como femeninos, y,

si es posible, de diferentes procedencias dialectales, junto con explicaciones detalladas de las

diferencias de pronunciación más generales. Es imprescindible incluir más de un modelo de

referencia para que el estudiante pueda diferenciar los rasgos acústicos que identifican las

categorías de la L2, reciba diferentes tipos de input, y encuentre un modelo con el que identificarse.

En los niveles iniciales se deberían incluir actividades para la corrección de los errores segmentales

que pueden crear problemas de comprensión en el oyente nativo. La práctica de aspectos

prosódicos, como la identificación del acento, el ritmo de la oración, la estructura silábica y la

entonación podrían abordarse en niveles intermedios. El sistema de RAH se podría regular para ser

más restrictivo a medida que el estudiante mejora su nivel. En cuanto a la interfaz, sería necesario

incluir información visual: cortes sagitales, fotografías o vídeos explicativos o cualquier otra ayuda

que sirva para que el feedback sea lo más significativo posible; por ejemplo, la articulación de las

vocales puede representarse como puntos dentro de un espacio (trapecio vocálico). El feedback debe

ser lo suficientemente explicativo como para que el alumno entienda el error y perciba la distancia

entre su pronunciación y la del modelo. La puntuación puede ayudar a motivarlo, pero no debe

verse como el objetivo final: el estudiante debe entender que la evaluación de la pronunciación

siempre es relativa, y que una corrección en términos de tipo “correcto/incorrecto” puede resultar

adecuada para otros aspectos lingüísticos, pero no para la pronunciación, puesto que en la

evaluación de una producción no nativa intervienen conjuntamente varios factores. El diseño de las

actividades debe dejar muy claro el objetivo de las mismas. Los ejercicios deben ser interactivos y

lo más variados posible. La repetición de pares mínimos sirve como actividad reiterativa, pero a la

larga puede producir monotonía y pérdida del interés. Por lo tanto, sería conveniente incluir otro

tipo de actividades más contextualizadas, como recordar objetos y luego repetir su nombre, mover

objetos con órdenes de voz, o diálogos simulados. Asimismo, el RAH puede estar integrado en otro

tipo de actividades que no se limiten a la práctica de la pronunciación. Por último, una aplicación

debe incluir la posibilidad de organizar el aprendizaje como si se tratara de un tutor. Los usuarios

demandan también la posibilidad de compartir sus logros mediante las redes sociales; el hecho de

crear una comunidad de usuarios/estudiantes fomenta la interacción y la motivación y, a la larga, la

permanencia del estudiante como usuario de la aplicación. Otro de los aspectos que aumenta la

motivación es la incorporación de aspectos lúdicos, por lo que las actividades deben suponer un reto

para el estudiante, proporcionando una recompensa si consigue realizarlas correctamente –en forma

de puntuación o de premio–, y una penalización si el error es persistente. Con ello el usuario podría

comprobar claramente sus progresos al emplear la aplicación.

!Bibliografía Abdous, M., Facer, B. R., Yen, C.-J. (2012). Academic effectiveness of podcasting: A comparative study of integrated

versus supplemented use of podcasting in second language classes. Computers and Education, 58, 43-52. Bernstein, J. (1994). Speech recognition in language education. En F. L. Borchardt & E. Johnson (Eds.), Proceedings of

the 1994 annual CALICO symposium: Human factors, (pp. 37-41). Durham, NC: CALICO. Bernstein, J., Cheng, J., Suzuki, M. (2011). Fluency changes with general progress in L2 proficiency. Proceedings of

Interspeech 2011, Florence, Italy. Bradlow, A.R., Pisoni, D.B., Akahane-Yamada, R., Tohkura, Y. (1997). Training Japanese listeners to identify English /

r/ and /l/ IV: Some effects of perceptual training on speech production. Journal of the Acoustical Society of America, 104, 2299-2310.

Burgos, P., Cucchiarini, C., van Hout, R., Strik, H. (2014). Phonology acquisition in Spanish learners of Dutch: error patterns in pronunciation. Language Sciences, 41, 129–142.

Carranza, M. (2011). El papel de la expresión oral en los cursos on-line de español como lengua extranjera para hablantes de japonés. Actas del VII Congreso Internacional de la Asociación Asiática de Hispanistas, (pp. 193–205). Beijing: Asociación Asiática de Hispanistas.

Cucchiarini, C., Strik, H., Boves, L. (2002). Quantitative assessment of second language learners' fluency: Comparisons between read and spontaneous speech. Journal of the Acoustical Society of America, 111(6), 2862-2873.

Cucchiarini, C., Neri, A., Strik, H. (2009). Oral proficiency training in Dutch L2: The contribution of ASR-based corrective feedback. Speech Communication, 51, 853–863.

Dalby, J., y Kewley-Port, D. (1999). Explicit Pronunciation Training Using Automatic Speech Recognition Technology. CALICO Journal, 16(3), 425–446.

Ehsani, F., y Knodt, E. (1998). Speech technology in computer-aided language learning: Strengths and limitations of a new CALL paradigm. Language Learning & Technology, 2(1), 54–73. Consultado en: http://llt.msu.edu/vol2num1/pdf/article3.pdf

Eskenazi, M. (1999). Using a Computer in Foreign Language Pronunciation Training: What Advantages? CALICO Journal, 16(3), 447–470.

Godwin-Jones, R. (2011). Emerging Technologies. Mobile Apps for Language Learning. Language Learning and Technology, 15(2), 2-11.

Hincks, R. (2001). Using Speech Recognition to evaluate skills in spoken English. Papers from Fonetik, 58–61. Consultado en: http://www.speech.kth.se/~hincks/papers/fon01.pdf

Hincks, R. (2002). Speech recognition for language teaching and evaluating: a study of existing software. ICSLP 2002. Proceedings of the 7th International Conference on Spoken Language Processing (pp. 733–736). Denver, Colorado. Consultado en: http://www.speech.kth.se/~hincks/papers/icslp02xxx.pdf

Hincks, R. (2003). Speech Technologies for pronunciation feedback and evaluation. ReCALL, 15(1), 3–20. Ito, A., Lim, Y. L., Suzuki, M., Makino, S. (2007). Pronunciation error detection for computer-assisted language

learning system based on error rule clustering using a decision tree. Acoustical Science and Technology, 28(2), 131–133.

Kim, I. (2006). Automatic speech recognition: Reliability and pedagogical implications for teaching pronunciation. Educational Technology & Society, 9, 322–334. Consultado en: http://www.ifets.info/others/download_pdf.php?j_id=30&a_id=622

LaRocca, S. (1994). Exploiting strengths and avoiding weaknesses in the use of speech recognition for language learning. CALICO Journal, 12(1), 102–105.

Llisterri, J. (2007). La enseñanza de la pronunciación asistida por ordenador. Actas del XXIV Congreso Internacional de AESLA. Aprendizaje de lenguas, uso del lenguaje y modelación cognitiva: perspectivas aplicadas entre disciplinas, (pp. 91–120). Madrid: AESLA, Asociación Española de Lingüística Aplicada. Consultado en: http://liceu.uab.cat/~joaquim/publicacions/Llisterri_06_Pronunciacion_Tecnologias.pdf

Milliner, B. (2012). Using cellphones to enhance minimal pairs drills and improve pronunciation skills. JACET News, 183, 2609–2613.

Neri, A., Cucchiarini, C., Strik, H. (2003). Automatic Speech Recognition for second language learning: How and why it actually works. Proceedings of the 15th International Congress of Phonetic Sciences, (pp. 1157–1160). Barcelona. Consultado en: http://lands.let.kun.nl/literature/neri.2003.1.pdf

Strik, H. (2012). ASR-based systems for language learning and therapy. En O. Engwall (Ed.), IS ADEPT: International Symposium on Automatic Detection of Errors in Pronunciation Training, (pp. 9–14). Stockholm: KTH, Computer Science and Communication Department of Speech, Music and Hearing.

Strik, H., Truong, K., de Wet, F., Cucchiarini, C. (2009). Comparing different approaches for automatic pronunciation error detection. Speech Communication, 51, 845–852.

Tajima, K., Dalby, J., Port, R. (1996). Foreign-accented rhythm and prosody in reiterant speech. Journal of the Acoustical Society of America, 99(4), 2493–2500.

Tajima, K., Port, R., Dalby, J. (1994). Influence of timing on intelligibility of foreign-accented English. Journal of the Acoustical Society of America, 95(5).

Van Doremalen, J., Cucchiarini, C., Strik, H. (2013). Automatic pronunciation error detection in non-native speech: the case of vowel errors in Dutch. The Journal of the Acoustical Society of America, 134(2), 1336–1347.

Viberg, O., y Grönlund, A. (2012). Mobile assisted language learning: a literature review. Proceedings of the 11th International Conference on Mobile and Contextual Learning. mLearn 2012, (pp. 9-16). Consultado en: http://ceur-ws-org/Vol-955/papers/paper-8.pdf

Wachowicz, K. A., y Scott, B. (1999). Software That Listens : It ’s Not a Question of Whether , It ’s a Question of How. CALICO Journal, 16(3), 253–276.

Witt, S. M. (2012). Automatic Error Detection in Pronunciation Training: Where we are and where we need to go. O. Engwall (Ed.), IS ADEPT: International Symposium on Automatic Detection of Errors in Pronunciation Training (pp. 1–8). Stockholm: KTH, Computer Science and Communication Department of Speech, Music and Hearing.

Zahra, A., Cabral, J. P., Kane, M., Carson-Berndsen, J. (2012). Automatic Classification of Pronunciation Errors Using Decision Trees and Speech Recognition Technology. O. Engwall (Ed.), IS ADEPT: International Symposium on Automatic Detection of Errors in Pronunciation Training, (pp. 65–69). Stockholm: KTH, Computer Science and Communication Department of Speech, Music and Hearing.

Zuo, X., Sumii, T., Iwahashi, N., Nakano, M., Funakoshi, K., Oka, N. (2011). Spoken interface for correcting phoneme recognition errors in learning of unknown words. The 25th Annual Conference of the Japanese Society for Artifical Intelligence. Consultado en: http://www.ii.is.kit.ac.jp/students/zuo/pdf/Zuo-2011JSAI.pdf !

– El prototipo de la app desarrollado para este estudio está disponible en: https://dl.dropboxusercontent.com/u/77426626/Prototipo1/Prototipo1_2/index.html – Una versión mejorada de la interfaz del prototipo se encuentra en: https://dl.dropboxusercontent.com/u/77426626/Prototipo_Versi%C3%B3n2/Prototype_versi%C3%B3n2/index.html