Carranza, M. (2014). Diseño de aplicaciones para la práctica de la pronunciación mediante...
Transcript of Carranza, M. (2014). Diseño de aplicaciones para la práctica de la pronunciación mediante...
Diseño de aplicaciones para la práctica de la pronunciación mediante
dispositivos móviles y su incorporación en el aula de ELE
!Mario Carranza
Departamento de Filología Española, Universitat Autònoma de Barcelona
!Resumen:
En este estudio se abordará el uso de aplicaciones de español como lengua extranjera que
incorporan la tecnología del reconocimiento automático del habla para la enseñanza de la
pronunciación. Se presentará el funcionamiento de esta tecnología y los mecanismos para poder
adaptarla como sistema automático de identificación y corrección de errores de pronunciación en
las aplicaciones diseñadas para dispositivos móviles. A continuación, se presentará un prototipo de
aplicación de enseñanza de la pronunciación del español que se diseñó en el Departamento de
Filología Española de la Universidad Autónoma de Barcelona durante el curso 2013-2014 y se
probó con estudiantes de ELE procedentes de China y Japón. Los resultados de las encuestas
realizadas mostraron la necesidad de adaptar los materiales de enseñanza a las nuevas tecnologías,
como los teléfonos móviles inteligentes, así como las ventajas que estos dispositivos pueden aportar
a la enseñanza del español como lengua extranjera.
!Palabras clave: enseñanza de la pronunciación asistida por ordenador, EPAO, enseñanza de
lenguas extranjeras mediante dispositivos móviles, diseño de interfaces, reconocimiento automático
del habla, RAH.
!Introducción
Uno de los problemas principales para la enseñanza de la pronunciación de una lengua
extranjera es la necesidad de invertir una cantidad considerable de tiempo en la práctica y en la
corrección individualizada por parte del profesor. En los cursos de lenguas extranjeras (L2) esto no
resulta factible en la mayoría de los casos, puesto que los contenidos de los programas priorizan
otros aspectos de la lengua y la logística de los cursos no permite una dedicación tan
individualizada. Por esta razón, recientemente ha aumentado el interés en las aplicaciones para la
enseñanza de la pronunciación asistida por ordenador (EPAO) como método de autoaprendizaje o
de apoyo a las clases presenciales; especialmente aquellas que posibilitan la práctica autónoma por
parte del estudiante. Estos sistemas permiten a los aprendices de lenguas extranjeras practicar la
pronunciación en un entorno privado, sin situaciones de ansiedad, a su propio ritmo y, mediante la
incorporación de tecnologías como el reconocimiento automático del habla (RAH), con la
posibilidad de recibir evaluación y corrección instantáneas en cualquier momento y en cualquier
lugar (Witt, 2012; Van Doremalen et al., 2013).
No obstante, actualmente es escaso el número de aplicaciones informáticas de enseñanza de
ELE que incorporan esta tecnología. En un estudio anterior (Carranza, 2011), presentamos una
revisión de las plataformas en línea para la enseñanza de español orientadas a estudiantes de habla
japonesa. Ninguna de las plataformas analizadas ofrece un sistema de autoevaluación de la
pronunciación, por lo que el propio estudiante es responsable de juzgar por sí mismo si su
producción se acerca al modelo que se presenta como referente. De entre todas las plataformas,
únicamente el Aula Virtual de Español (AVE) dispone de un servicio de evaluación en su modalidad
de pago, que consiste en una corrección y comentarios asincrónicos de las grabaciones de los
estudiantes por parte de un tutor. Asimismo, se constató la falta de estudios empíricos que analicen
el impacto de los sistemas estudiados en la producción oral de los estudiantes.
Por otro lado, el desarrollo de los dispositivos móviles ha permitido disponer de terminales
tecnológicamente muy avanzados, lo que posibilita el desarrollo de aplicaciones para la enseñanza
de lenguas extranjeras (Mobile Assisted Language Learning, MALL, en sus siglas en inglés). La
facilidad de uso de estos terminales, su portabilidad y el alto grado de motivación que generan en
los estudiantes los convierten en un recurso ideal para practicar aquellos contenidos lingüísticos
que, por falta de tiempo o por cuestiones de logística, no pueden formar parte del currículo de
contenidos en los cursos presenciales de español L2 (Milliner, 2012; Neri et al., 2003).
El apartado 1 se centra en el debate sobre el uso de sistemas informáticos como recurso para
la enseñanza y el aprendizaje de la pronunciación de una lengua extranjera. Expondremos el estado
de la cuestión, así como los logros y las críticas que ha suscitado la incorporación de la tecnología
en este ámbito. En el apartado 2 resumiremos cómo funciona la tecnología del reconocimiento
automático del habla y las técnicas que permiten adaptar el sistema para el reconocimiento del habla
no nativa y, en concreto, para la corrección automática de la pronunciación de una lengua
extranjera. A continuación, en el apartado 3 presentaremos un prototipo de aplicación para la
enseñanza de la pronunciación del español L2 desarrollado en el departamento de Filología
Española de la Universidad Autónoma de Barcelona. Este prototipo fue probado y evaluado por
estudiantes chinos y japoneses de ELE de niveles B1 y B2. Los resultados de esta evaluación se
ofrecen igualmente en el apartado 3. Para terminar, el apartado 4 incluye una breve discusión sobre
los resultados obtenidos y las conclusiones generales sobre la manera de optimizar estas
aplicaciones para su uso como recurso tecnológico en la enseñanza del español L2.
!1. La enseñanza de la pronunciación asistida por ordenador (EPAO)
Muchas herramientas de enseñanza de lenguas asistida por ordenador (ELAO) incorporan
actividades para practicar la lengua oral; sin embargo, el habla del estudiante no es posteriormente
procesada ni evaluada. A pesar de que la producción oral ya supone una actividad positiva para el
aprendizaje, una de las críticas que han recibido estos programas es la imposibilidad de evaluar la
pronunciación del aprendiz. Una posible solución consiste en incorporar ejemplos de hablantes
nativos que proporcionen al estudiante referentes de pronunciación. No obstante, la autoevaluación
presenta serias limitaciones, especialmente en el caso de la pronunciación de una L2, puesto que los
aprendices muestran dificultades en discriminar perceptivamente ciertos contrastes fonológicos de
la L1 (Llisterri, 2007; Strik, 2012). Por otro lado, el término “error de pronunciación” resulta difícil
de definir. No existe un consenso sobre lo que es “correcto” o “incorrecto” en la pronunciación no
nativa, por lo que más bien debería plantearse la existencia de un continuo entre dos extremos;
desde una elocución totalmente ininteligible hasta un habla cercana a la nativa (Zahra et al., 2012).
Varios estudios han demostrado, además, que la aceptabilidad de la pronunciación no nativa
muestra un alto grado de variabilidad entre los hablantes de la L1 (Cucchiarini et al., 2002; Witt,
2012).
La corrección de la pronunciación dentro del aula puede provocar ansiedad en el estudiante,
especialmente si se le pide que produzca un par de sonidos que no contrastan en su L1 y que el
estudiante es incapaz de distinguir perceptivamente; en ocasiones, esta práctica puede resultar
contraproducente, ya que unos niveles altos de ansiedad pueden llegar a bloquear la adquisición.
Por lo tanto, en una situación ideal el profesor debería dedicar tiempo a cada estudiante para
corregir de manera individual los problemas de pronunciación; sin embargo, esto resulta
prácticamente imposible de llevar a cabo debido, principalmente, a la falta de tiempo y de recursos
en la mayoría de clases de L2.
Tal situación ha suscitado una búsqueda de sistemas de aprendizaje y de práctica de la
pronunciación que permitan al estudiante trabajar este aspecto de manera individual, a su propio
ritmo y en un contexto relajado. La tecnología del reconocimiento automático del habla (RAH) se
ha desarrollado hasta niveles de aceptabilidad tales que permiten su adaptación como procedimiento
de evaluación automática de la pronunciación de una legua extranjera (LaRocca, 1994; Eskenazi,
1999; Neri et al., 2003; Witt, 2012). Las ventajas que se han destacado de estos sistemas son, en
primer lugar, la posibilidad de práctica ilimitada, –el estudiante produce una mayor cantidad de
contenido oral que en una situación clásica de aprendizaje de una L2 en el aula–. En segundo lugar,
los sistemas de aprendizaje autónomo se puede utilizar en un entorno privado, una situación más
favorecedora para la práctica de la pronunciación ya que disminuye la posible ansiedad presente
dentro del aula. Asimismo, la adquisición de los sonidos de una L2 es una tarea que requiere una
gran cantidad de práctica, en ocasiones reiterativa. Por lo tanto, automatizar estas actividades,
permite disponer del tiempo de clase para una puesta en práctica de lo aprendido de manera
autónoma, pero en una situación comunicativa real (Ehsani y Knodt, 1998).
Por otra parte, los sistemas de EPAO también han recibido ciertas críticas y existe un cierto
escepticismo en lo que se refiere a su efectividad. Las críticas se han centrado en el tipo de
interacción oral entre el estudiante y el sistema, puesto que en la mayor parte de los casos el
estudiante no desempeña un papel activo. Aunque la actividad demande una respuesta oral por parte
del estudiante, este se limita a imitar el modelo o a elegir una de las respuestas de un conjunto de
posibilidades (Bernstein, 1994). Las herramientas de enseñanza de la pronunciación en L2 no
permiten al estudiante total libertad en la creación de su discurso, debido a las limitaciones que
imponen los sistemas de RAH, que necesitan una elevada capacidad de predicción para reconocer
adecuadamente la señal sonora. Los desarrolladores utilizan técnicas paliativas para impedir que el
sistema califique como incorrecta una articulación que no es errónea (situación denominada “falso
rechazo”) e interrumpa así el desarrollo de la actividad, a pesar de que la pronunciación del
estudiante haya sido adecuada. La mayor parte de las críticas que ha recibido la enseñanza de la
pronunciación asistida por ordenador son debidas a las elevadas expectativas en lo que se refiere a
la tecnología del RAH y al desconocimiento de sus límites (Neri et al., 2003; Strik, 2012). El
reconocimiento del habla no nativa se enfrenta a problemas complejos debidos, principalmente, a la
variabilidad del discurso no nativo. Muchas de las herramientas de EPAO emplean sistemas
comerciales de RAH orientados al reconocimiento de hablantes nativos, por lo que al tratar de
reconocer la articulación de un hablante no nativo los niveles de reconocimiento disminuyen
considerablemente; esto provoca que el sistema marque como incorrectas pronunciaciones
adecuadas, lo que provoca frustración en el estudiante. Otra crítica que han recibido estos sistemas
se refiere al tipo de retroalimentación que proporcionan al alumno. Algunos sistemas proporcionan
una evaluación numérica o una ayuda visual para que el estudiante comprenda el tipo de error que
ha cometido, pero la mayoría de los sistemas disponibles en el mercado se limitan a valorar la
producción del alumno como correcta o incorrecta, lo que resulta insuficiente puesto que no
especifica el motivo de la evaluación ni qué sonidos han sido los que el estudiante ha articulado
incorrectamente.
Así pues, resulta necesario plantearse cuáles son los beneficios de incorporar estos sistemas
en la enseñanza de lenguas y qué metodología resulta más adecuada para su uso como recurso de
aprendizaje. Se ha demostrado que el nivel tecnológico al que han llegado los sistemas de
reconocimiento actuales permite su empleo como un sistema de evaluación de la pronunciación no
nativa, puesto que los niveles de identificación de errores son comparables a las evaluaciones
realizadas por especialistas nativos (Cucchiarini et al., 2012). Sin embargo, el reconocimiento
automático del habla todavía se enfrenta a varios retos para su óptima utilización como
procedimiento de corrección automática de errores de pronunciación (Witt, 2013). La tecnología
actual no es capaz de alcanzar un nivel elevado de identificación de errores cuando se enfrenta a un
discurso totalmente espontáneo o cuando la señal sonora pierde calidad debido a la interferencia de
ruidos externos. Asimismo, la evaluación y la retroalimentación (feedback) de la mayor parte de los
sistemas comerciales no informan detalladamente a los estudiantes sobre sus problemas concretos
de pronunciación. Sería conveniente que estas herramientas los orientaran hacia la manera de
solucionar las dificultades mediante ejercicios y actividades centradas en sus problemas específicos.
La interfaz podría proporcionar un feedback visual, que incorpore información detallada sobre los
movimientos que deben realizar los articuladores para la producción del sonido. Finalmente, es
importante que los sistemas de EPAO proporcionen un modelo de L1 lo suficientemente variado y
abundante, que permita a los aprendices extraer los rasgos acústicos que identifican los contrastes
fonológicos y los patrones prosódicos de la L2. Estas “debilidades” de la tecnología pueden
compensarse con un diseño adecuado de las actividades, enfocado en la interactividad del usuario
con la aplicación, y que proporcione un feedback suficientemente significativo y pertinente, que
ayude al estudiante a entender el error y a corregirlo (Wachowicz & Scott, 1999).
!2. Adaptación de la tecnología del RAH en aplicaciones para la enseñanza de la pronunciación
La arquitectura de un sistema de RAH se compone de diferentes módulos de análisis que
intervienen de manera independiente y consecutiva en la señal sonora del habla y proporcionan
finalmente una representación de esa señal, normalmente en forma de texto escrito. Actualmente
estos sistemas están basados en cálculos estadísticos y utilizan algoritmos complejos para
determinar la probabilidad de que una determinada observación de la señal sea identificada, a partir
de medidas acústicas, como una realización de una de las unidades codificadas previamente durante
el entrenamiento; estas unidades pueden consistir en sonidos, fonemas, palabras u oraciones en
función del módulo de análisis. En la figura 1 se muestra un esquema de los módulos que componen
un sistema de RAH basado en análisis estadístico.
Figura 1: Esquema de los componentes de un sistema de reconocimiento automático del habla
En primer lugar, los modelos acústicos se desarrollan durante una fase de entrenamiento,
donde el sistema recibe una elevada cantidad de datos orales junto con sus correspondientes
transcripciones ortográfica y fonológica canónica. De esta manera se entrena al reconocedor para
que asocie unas medidas acústicas determinadas a una unidad sonora de la lengua que ha de
reconocer. Al final de la fase de entrenamiento, el sistema ha desarrollado uno o más modelos
acústicos por cada unidad sonora de la lengua. Cuando el sistema debe descodificar una señal
sonora desconocida, en primer lugar el módulo de procesamiento muestrea la señal sonora; a
continuación, se segmenta la señal empleando ventanas de análisis y se obtiene un conjunto de
medidas acústicas (MFLC) para cada segmento, que posteriormente se comparan estadísticamente
con los modelos acústicos creados durante la etapa de entrenamiento. El sistema proporciona una
lista de frecuencias de los modelos que poseen una mayor probabilidad de corresponder con las
medidas acústicas obtenidas en el análisis. Finalmente, el modelo de lenguaje se encarga de
seleccionar la secuencia más probable de fonemas para esos modelos recurriendo a un diccionario
de pronunciación y, una vez generada la salida fonética, identifica la secuencia de palabras y la
transcribe ortográficamente.
!!
2.1. La evaluación del habla no nativa mediante sistemas de RAH
La tarea de la evaluación del habla no nativa mediante sistemas de reconocimiento
automático consiste en definir la distancia entre la pronunciación del hablante no nativo y un
“agrupamiento” (cluster, en inglés) de los modelos acústicos de pronunciación de hablantes nativos.
Cuanto menor sea la distancia, más cercana se encuentra la pronunciación del hablante no nativo a
una pronunciación nativa. Existen diferentes técnicas estadísticas para medir esta distancia, en
función de si el tipo de habla es lingüísticamente homogéneo (hablantes de una misma L1) o
heterogéneo (hablantes de diferentes L1). Las investigaciones con grupos lingüísticos homogéneos
han obtenido resultados con un incremento en la precisión de detección del error (Ito et al., 2007)
que con grupos lingüísticamente heterogéneos. Este incremento es debido a que si se conoce
previamente la L1 del estudiante se pueden utilizar modelos acústicos tanto de la L1 como de la L2,
lo que mejora la tasa de reconocimiento y, por lo tanto, permite una mayor libertad en el diseño de
las actividades. En segundo lugar, los errores de pronunciación dependen en gran medida de la L1
del estudiante, por lo que si se conocen los errores de pronunciación más frecuentes de los hablantes
de una determinada L1 se pueden añadir reglas de pronunciación que describan las pronunciaciones
no nativas en los diccionarios de pronunciación del sistema de RAH y diseñar actividades
orientadas a corregir esos errores específicos (Van Doremalen et al., 2013; Burgos et al., 2014). El
rendimiento del sistema de reconocimiento mejora si está adaptado a hablantes de una lengua en
particular. En este caso se puede predecir el error a partir de una lista que contenga las frecuencias
de aparición de los errores de pronunciación y generar modelos acústicos de las pronunciaciones no
nativas, así como incorporar rasgos acústicos que identifiquen los errores si el sistema de RAH se
ha entrenado con habla no nativa. Sin embargo, para obtener estas listas de frecuencias de errores
son necesarias grandes bases de datos, o corpus, de L2 transcritas en los niveles fonético y
fonológico, y con los errores de pronunciación anotados para que el sistema de RAH sea capaz de
procesarlos. Para evaluar las características prosódicas se utilizan algoritmos que comparan la
frecuencia del fundamental (F0) del estudiante con la de los modelos de hablantes nativos. También
se ha investigado la importancia de la duración (Tajima et al., 1994, 1996; Eskenazi, 1999) para
identificar errores de ritmo; en este caso, las medidas de discrepancia obtenidas mediante RAH son
coherentes con los juicios emitidos por evaluadores nativos experimentados (Bernstein et al., 2011).
Una explicación detallada de las diferentes técnicas que se utilizan para detectar automáticamente
los errores de pronunciación en habla no nativa se puede consultar en Ehsani y Knodt (1998) y en
Strik (2012).
!
2.2. Técnicas de corrección y “feedback”
La evaluación y corrección del habla no nativa mediante RAH permite incorporar un
feedback, o respuesta, a la pronunciación del estudiante, sea mediante una puntuación (score) de la
distancia entre su pronunciación y la del modelo, o mediante una ayuda visual que permita
comprender al aprendiz dónde ha cometido el error y cuál es la pronunciación correcta. Los
sistemas de EPAO han utilizado comúnmente ayudas visuales tales como representaciones de la
forma de onda de la señal sonora, cortes sagitales (vídeos, fotografías) que representan la posición
de los articuladores en la producción del sonido-meta, curvas melódicas para representar la
entonación, etc. En algunas ocasiones no es evidente que estas ayudas supongan un beneficio claro
para la corrección de la pronunciación por parte de los propios estudiantes (Llisterri, 2007)
Cabría diferenciar, por tanto, el feedback sobre los errores segmentales del que se centra en
los errores suprasegmentales. LaRocca (1999) propone guiar a los estudiantes sobre cómo articular
el sonido mediante imágenes que representen los movimientos que deben realizar los articuladores,
ya que se trata de sonidos nuevos y los estudiantes no están acostumbrados a los movimientos
necesarios para producirlos. En cambio, los errores suprasegmentales son más evidentes para los
aprendices puesto que los parámetros acústicos que caracterizan los elementos prosódicos son los
mismos en todas las lenguas, por lo que en este caso resulta más adecuado mostrar un modelo de
referencia sobre el que practicar. El uso de pares mínimos en la corrección de errores segmentales
ha proporcionado resultados positivos (Bradlow et al., 1997; Dalby y Kewley-Port, 1999; Ito et al.,
2007; Zuo et al, 2011); no obstante, es necesario considerar que si un sonido no pertenece al
repertorio fonológico de la L1 del estudiante, este tiende a relacionarlo con el sonido más cercano
en su L1, por lo que una instrucción detallada de cómo articular el sonido de la L2 podría beneficiar
la propiocepción, de manera que el estudiante pueda “sentir” cuándo los articuladores están
colocados adecuadamente para producir el sonido-meta; asimismo, será necesario un entrenamiento
auditivo para que el estudiante consiga discriminar perceptivamente los sonidos de la L2 que tiende
a confundir. Esta técnica se ha utilizado con éxito para enseñar la diferencia entre los fonemas /r/-/l/
a estudiantes japoneses (Bradlow et al., 1997); aun así practicar la distinción entre dos sonidos de la
L2 únicamente mediante pares mínimos puede resultar excesivamente monótono para el estudiante
si la actividad no está adecuadamente contextualizada. La representación visual de la entonación
mediante curvas melódicas sirve para comparar la entonación del estudiante con la curva melódica
propuesta como modelo (Tajima et al, 1994, 1996). El alumno puede practicar las veces necesarias
hasta lograr que su curva melódica se acerque progresivamente a la del modelo; no obstante, es
necesario advertir de que el hecho de que una entonación no sea exactamente igual a la de un
modelo propuesto como canónico no quiere decir que necesariamente los hablantes nativos la
evalúen como incorrecta. Otras medidas acústicas, como la duración o la intensidad, se han
utilizado para evaluar la fluidez del discurso no nativo (Eskenazi, 1999)
2.3. Experiencias de aplicaciones metodológicas
A pesar de que el uso de dispositivos móviles para la enseñanza de lenguas extranjeras es un
campo relativamente reciente, existen algunos estudios que muestran experiencias docentes
diseñadas para incorporar aplicaciones móviles en la enseñanza de la producción oral, en especial
haciendo uso de podcasts (Abdous et al., 2012) para la práctica de la expresión oral. Milliner (2012)
utilizó una combinación de varias aplicaciones disponibles en el mercado, entre ellas Dragon
Dictation, un programa de dictado automático mediante RAH, para enseñar y facilitar la práctica de
contrastes fonológicos del inglés L2 a estudiantes de habla japonesa. Esta experiencia docente
muestra la incorporación de diferentes tecnologías del habla en el aula de lenguas extranjeras en un
entorno presencial. Muchas de estas tecnologías, como el dictado automático, se encuentran
instaladas de manera gratuita en la mayor parte de teléfonos móviles inteligentes disponibles en el
mercado, y pueden aprovecharse en la clase de idiomas. Es necesario considerar, no obstante, que
originalmente se han diseñado para usuarios nativos, por lo que el rendimiento del reconocedor
disminuirá al intentar reconocer habla no nativa, tal como advertimos en el apartado 2.1.
!4. Diseño de una app para la enseñanza y práctica de la pronunciación de una L2
A continuación presentaremos un prototipo de aplicación para la enseñanza de la
pronunciación del español L2 desarrollado en el Departamento de Filología Española de la
Universidad Autónoma de Barcelona. Este prototipo fue probado y posteriormente evaluado por 20
estudiantes chinos y japoneses de español L2 de nivel intermedio-avanzado (B1-B2). El prototipo se
diseñó con dos objetivos: evaluar el nivel de aceptación del uso de apps como material
complementario a las clases presenciales de ELE e identificar los aspectos de la aplicación que los
alumnos consideran más efectivos y los que mejorarían.
!4.1. Diseño del prototipo
El prototipo se diseñó mediante el programa de edición Just in Mind, que imita una
aplicación real de un teléfono móvil y se programó en HTML. Just in Mind es un programa de
creación de prototipos para el desarrollo de software, que permite realizar diseños muy cercanos a la
realidad final del producto; en el caso de los teléfonos y tabletas, permite también crear botones y
otros gadgets que pueden emplearse en una pantalla táctil. Para este prototipo nos centramos en
diseñar el menú general de la aplicación y dos tipos de ejercicios: uno de pronunciación y otro de
discriminación de sonidos, ambos relacionados con el contraste en español entre los fonemas /r/-/l/
y /ɾ/ (véase la Figura 2). Este contraste de sonidos fue escogido debido a la dificultad que muestran
los estudiantes chinos y japoneses para discriminarlos, ya que en sus lenguas no contrastan
fonológicamente (Bradlow et al., 1997)
Figura 2 : Menú inicial y pantalla de configuración de la cuenta personal del usuario
El prototipo presupone la existencia de una explicación, anterior a las actividades prácticas,
sobre la diferencia entre estos tres sonidos, la manera de articularlos y las grafías con las que se
representan en español. La primera actividad (véase la Figura 3) consiste un ejercicio de
discriminación de diez pares mínimos, en el que el estudiante deberá escuchar una palabras y
escribirla en un cuadro de texto. El sistema evalúa automáticamente si la palabra introducida es
correcta o no y proporciona un resultado en términos de “correcto/incorrecto”. En la actividad 2, el
estudiante tiene que practicar la pronunciación de los tres sonidos mencionados repitiendo la
palabra que escucha en la voz del hablante masculino que realizó la grabación. Se recupera el
mismo vocabulario utilizado en la actividad anterior y se añade un dibujo a cada uno de los ítems
para que el estudiante relacione la palabra con su significado. En este caso, en la aplicación real se
utilizaría la tecnología del RAH para evaluar la pronunciación del estudiante y proporcionar un
feedback significativo (una puntuación y una explicación del error concreto) en cada uno de los
ítems. Sin embargo, resultó imposible adaptar un sistema de RAH para la evaluación automática por
lo que se optó por proporcionar una evaluación simulada que imita cómo funcionaría la evaluación
automática en la versión final (Figura 3)
Figura 3 : Actividades incluidas en el prototipo
4.2. Evaluación
Se solicitó a los estudiantes que descargaran el prototipo en sus teléfonos móviles y lo
probaran durante una semana; aquellos que no disponían de un dispositivo con iOS utilizaron el
prototipo en línea mediante un navegador. Los estudiantes recibieron instrucciones sobre el modo
de empleo del prototipo y sobre las actividades que debían realizar. Al final del período de prueba,
rellenaron una encuesta sobre su experiencia. En la primera parte se incluyeron preguntas
relacionadas con los años de estudio de español, su estilo de aprendizaje –especialmente el uso de
recursos digitales–, y el empleo de dispositivos móviles. La segunda parte se centra en la
experiencia con el prototipo, por un lado como recurso pedagógico y, por el otro, desde la
perspectiva del diseño y de la interfaz; se pidió a los estudiantes que indicaran con qué aspectos
estaba más satisfechos y qué aspectos consideraban que era necesario mejorar.
4.3. Resultados y discusión
La percepción de los estudiantes sobre los aspectos más difíciles del español se valoró
mediante las respuestas a partir de una escala desde 1(muy fácil) hasta 5(muy difícil) para cualificar
el grado de dificultad de los diversos aspectos sobre los que se preguntaba en la encuesta. Los
resultados fueron los siguientes (por orden decreciente): la comprensión oral (3,9), el léxico (3,5), la
sintaxis (3,35), la morfología (2,75), y la pronunciación (2,7). Ello parece indicar la percepción de
una menor dificultad de la pronunciación frente a otros aspectos lingüísticos del español. En el caso
de los estudiantes que marcaron “utilizo programas de ordenador o aplicaciones para teléfono
móvil” como una forma de practicar español, la respuesta desglosada indica el uso mayoritario de
diccionarios en línea (como WordReference), el servicio de traducción automática de Google, de
versiones digitales de periódicos y de otros medios de comunicación en español (El País, El Mundo,
El Economista, La Vanguardia, RTVE, entre otros) y de conjugadores automáticos de verbos. La
única app que fue mencionada fue Duolingo. Todos los estudiantes disponían de teléfono móvil
inteligente o tableta, y el 55% respondió que utilizan apps de contenidos educativos en estos
dispositivos. Respecto al uso de teléfonos móviles para la enseñanza de español, los estudiantes
muestran cierto interés por esta posibilidad (“Los teléfonos móviles pueden servir para estudiar
lenguas”: 3,95; “Con una app de español repasaría y practicaría en mis ratos libres”: 3,7).
La evaluación del prototipo reflejó un elevado grado de satisfacción, puesto que todos los
aspectos se calificaron por encima de la media en una escala del 1 al 5; los estudiantes valoraron
positivamente la información clara y las explicaciones de los ejercicios (4,15) y en menor medida
los aspectos relacionados con la funcionalidad de la app (3,55), lo que resulta comprensible a causa
de las limitaciones del prototipo. La interfaz obtuvo resultados más bajos debidos principalmente a
la elección de los colores (2,9); los demás elementos se calificaron por encima de la media. En
cuanto a la experiencia de usuario, los resultados positivos destacan la facilidad de uso (4), la
utilidad (3,9) y la diversión (3,2). Cabe destacar que un 75% de los estudiantes estaría dispuesto a
comprar la app si existiera.
Las sugerencias apuntaron la necesidad de que la interfaz esté traducida a la lengua del
alumno, lo que tiene sentido puesto que el usuario medio de una app puede ser una persona sin
conocimientos de la lengua. Otra de las críticas se centró en el formato de los ejercicios: el hecho de
presentar el vocabulario aislado resulta repetitivo y falto de contexto –como ya se señaló en el
apartado 2.2–, por lo que sería necesario enmarcar las palabras en oraciones; lo que aportaría un
contexto significativo de la palabra, así como su inclusión en una curva entonativa. Lo ideal sería
presentar los estímulos en un contexto lo más realista posible, por ejemplo dentro de un diálogo
interactivo. También se puso de relieve la necesidad de explicaciones más detalladas sobre los
errores específicos en el feedback que proporciona la app.
Las críticas que recibió la interfaz abogan por la simplificación de elementos y colores;
parece que los estudiantes prefieren interfaces más limpias, sencillas y funcionales. Se criticó
especialmente el uso de dibujos en el menú principal (son preferibles fotografías) y los colores de la
tipografía. Muchos estudiantes consideraron que incluir personajes animados a la app aportaría al
programa de un aspecto más lúdico. En cambio, otros estudiantes rechazaron esta opción
precisamente porque entonces se confundiría la app con un videojuego. Es interesante resaltar este
aspecto, muchos estudiantes prefieren distinguir de manera clara las apps dirigidas a la educación
de las apps de entretenimiento mediante la interfaz y el icono de la aplicación, que debe tener un
diseño serio y evitar la referencia a cualquier personaje. También se indicó la necesidad de añadir
más voces nativas diferentes al modelo de pronunciación y la posibilidad de crear una cuenta nueva
a partir de otra cuenta en una red social, lo que permitiría compartir logros, puntuaciones y avances
en el uso de la aplicación. Por otro lado, se indicó la posibilidad de que el sistema fuera capaz de
guardar la información sobre los errores más frecuentes y seleccionara actividades específicas para
corregirlos, es decir, que se adaptara a los errores más persistentes del usuario. Finalmente se
sugirió la incorporación de una función para avisar al usuario de cuándo y cuánto tiempo debe
practicar con la aplicación, de forma que el sistema organice por sí mismo el aprendizaje.
Finalmente, surgieron ideas innovadoras sobre el tipo de ejercicios que podrían desarrollarse
aplicando la tecnología del RAH. Además de los ejercicios clásicos de repetición de pares mínimos,
sería necesario encontrar la manera de realizar ejercicios más interactivos, por ejemplo la
identificación de objetos, el movimiento de un objeto o personaje mediante comandos de voz, o la
participación del usuario en un diálogo simulado, mediante respuestas de opción múltiple o libres.
Estos diálogos deberían simular situaciones de la vida cotidiana y aportarían información sobre
aspectos culturales y pragmáticos a los contenidos. También se indicó que el RAH no debe limitarse
a las actividades de pronunciación, sino que puede incorporarse en otro tipo de actividades, como
las centradas en la morfología o en la sintaxis. Para acabar, se indicó la posibilidad de añadir
canciones, karaoke, trabalenguas, poesía y otras actividades que también se suelen utilizar para la
práctica de la pronunciación en las clases presenciales de ELE.
!5. Conclusiones y propuestas de incorporación de las aplicaciones de teléfonos móviles como
recurso para el aprendizaje del español como lengua extranjera
La adaptación del RAH como herramienta de corrección automática de la pronunciación de
una lengua extranjera exige prestar una especial atención al diseño de actividades, con el objetivo
de incorporar la tecnología de la manera más adecuada, teniendo en cuenta sus limitaciones. Para
empezar, toda aplicación debería disponer de un apartado que muestre los sonidos vocálicos y
consonánticos del español, con ejemplos de varios locutores, tanto masculinos como femeninos, y,
si es posible, de diferentes procedencias dialectales, junto con explicaciones detalladas de las
diferencias de pronunciación más generales. Es imprescindible incluir más de un modelo de
referencia para que el estudiante pueda diferenciar los rasgos acústicos que identifican las
categorías de la L2, reciba diferentes tipos de input, y encuentre un modelo con el que identificarse.
En los niveles iniciales se deberían incluir actividades para la corrección de los errores segmentales
que pueden crear problemas de comprensión en el oyente nativo. La práctica de aspectos
prosódicos, como la identificación del acento, el ritmo de la oración, la estructura silábica y la
entonación podrían abordarse en niveles intermedios. El sistema de RAH se podría regular para ser
más restrictivo a medida que el estudiante mejora su nivel. En cuanto a la interfaz, sería necesario
incluir información visual: cortes sagitales, fotografías o vídeos explicativos o cualquier otra ayuda
que sirva para que el feedback sea lo más significativo posible; por ejemplo, la articulación de las
vocales puede representarse como puntos dentro de un espacio (trapecio vocálico). El feedback debe
ser lo suficientemente explicativo como para que el alumno entienda el error y perciba la distancia
entre su pronunciación y la del modelo. La puntuación puede ayudar a motivarlo, pero no debe
verse como el objetivo final: el estudiante debe entender que la evaluación de la pronunciación
siempre es relativa, y que una corrección en términos de tipo “correcto/incorrecto” puede resultar
adecuada para otros aspectos lingüísticos, pero no para la pronunciación, puesto que en la
evaluación de una producción no nativa intervienen conjuntamente varios factores. El diseño de las
actividades debe dejar muy claro el objetivo de las mismas. Los ejercicios deben ser interactivos y
lo más variados posible. La repetición de pares mínimos sirve como actividad reiterativa, pero a la
larga puede producir monotonía y pérdida del interés. Por lo tanto, sería conveniente incluir otro
tipo de actividades más contextualizadas, como recordar objetos y luego repetir su nombre, mover
objetos con órdenes de voz, o diálogos simulados. Asimismo, el RAH puede estar integrado en otro
tipo de actividades que no se limiten a la práctica de la pronunciación. Por último, una aplicación
debe incluir la posibilidad de organizar el aprendizaje como si se tratara de un tutor. Los usuarios
demandan también la posibilidad de compartir sus logros mediante las redes sociales; el hecho de
crear una comunidad de usuarios/estudiantes fomenta la interacción y la motivación y, a la larga, la
permanencia del estudiante como usuario de la aplicación. Otro de los aspectos que aumenta la
motivación es la incorporación de aspectos lúdicos, por lo que las actividades deben suponer un reto
para el estudiante, proporcionando una recompensa si consigue realizarlas correctamente –en forma
de puntuación o de premio–, y una penalización si el error es persistente. Con ello el usuario podría
comprobar claramente sus progresos al emplear la aplicación.
!Bibliografía Abdous, M., Facer, B. R., Yen, C.-J. (2012). Academic effectiveness of podcasting: A comparative study of integrated
versus supplemented use of podcasting in second language classes. Computers and Education, 58, 43-52. Bernstein, J. (1994). Speech recognition in language education. En F. L. Borchardt & E. Johnson (Eds.), Proceedings of
the 1994 annual CALICO symposium: Human factors, (pp. 37-41). Durham, NC: CALICO. Bernstein, J., Cheng, J., Suzuki, M. (2011). Fluency changes with general progress in L2 proficiency. Proceedings of
Interspeech 2011, Florence, Italy. Bradlow, A.R., Pisoni, D.B., Akahane-Yamada, R., Tohkura, Y. (1997). Training Japanese listeners to identify English /
r/ and /l/ IV: Some effects of perceptual training on speech production. Journal of the Acoustical Society of America, 104, 2299-2310.
Burgos, P., Cucchiarini, C., van Hout, R., Strik, H. (2014). Phonology acquisition in Spanish learners of Dutch: error patterns in pronunciation. Language Sciences, 41, 129–142.
Carranza, M. (2011). El papel de la expresión oral en los cursos on-line de español como lengua extranjera para hablantes de japonés. Actas del VII Congreso Internacional de la Asociación Asiática de Hispanistas, (pp. 193–205). Beijing: Asociación Asiática de Hispanistas.
Cucchiarini, C., Strik, H., Boves, L. (2002). Quantitative assessment of second language learners' fluency: Comparisons between read and spontaneous speech. Journal of the Acoustical Society of America, 111(6), 2862-2873.
Cucchiarini, C., Neri, A., Strik, H. (2009). Oral proficiency training in Dutch L2: The contribution of ASR-based corrective feedback. Speech Communication, 51, 853–863.
Dalby, J., y Kewley-Port, D. (1999). Explicit Pronunciation Training Using Automatic Speech Recognition Technology. CALICO Journal, 16(3), 425–446.
Ehsani, F., y Knodt, E. (1998). Speech technology in computer-aided language learning: Strengths and limitations of a new CALL paradigm. Language Learning & Technology, 2(1), 54–73. Consultado en: http://llt.msu.edu/vol2num1/pdf/article3.pdf
Eskenazi, M. (1999). Using a Computer in Foreign Language Pronunciation Training: What Advantages? CALICO Journal, 16(3), 447–470.
Godwin-Jones, R. (2011). Emerging Technologies. Mobile Apps for Language Learning. Language Learning and Technology, 15(2), 2-11.
Hincks, R. (2001). Using Speech Recognition to evaluate skills in spoken English. Papers from Fonetik, 58–61. Consultado en: http://www.speech.kth.se/~hincks/papers/fon01.pdf
Hincks, R. (2002). Speech recognition for language teaching and evaluating: a study of existing software. ICSLP 2002. Proceedings of the 7th International Conference on Spoken Language Processing (pp. 733–736). Denver, Colorado. Consultado en: http://www.speech.kth.se/~hincks/papers/icslp02xxx.pdf
Hincks, R. (2003). Speech Technologies for pronunciation feedback and evaluation. ReCALL, 15(1), 3–20. Ito, A., Lim, Y. L., Suzuki, M., Makino, S. (2007). Pronunciation error detection for computer-assisted language
learning system based on error rule clustering using a decision tree. Acoustical Science and Technology, 28(2), 131–133.
Kim, I. (2006). Automatic speech recognition: Reliability and pedagogical implications for teaching pronunciation. Educational Technology & Society, 9, 322–334. Consultado en: http://www.ifets.info/others/download_pdf.php?j_id=30&a_id=622
LaRocca, S. (1994). Exploiting strengths and avoiding weaknesses in the use of speech recognition for language learning. CALICO Journal, 12(1), 102–105.
Llisterri, J. (2007). La enseñanza de la pronunciación asistida por ordenador. Actas del XXIV Congreso Internacional de AESLA. Aprendizaje de lenguas, uso del lenguaje y modelación cognitiva: perspectivas aplicadas entre disciplinas, (pp. 91–120). Madrid: AESLA, Asociación Española de Lingüística Aplicada. Consultado en: http://liceu.uab.cat/~joaquim/publicacions/Llisterri_06_Pronunciacion_Tecnologias.pdf
Milliner, B. (2012). Using cellphones to enhance minimal pairs drills and improve pronunciation skills. JACET News, 183, 2609–2613.
Neri, A., Cucchiarini, C., Strik, H. (2003). Automatic Speech Recognition for second language learning: How and why it actually works. Proceedings of the 15th International Congress of Phonetic Sciences, (pp. 1157–1160). Barcelona. Consultado en: http://lands.let.kun.nl/literature/neri.2003.1.pdf
Strik, H. (2012). ASR-based systems for language learning and therapy. En O. Engwall (Ed.), IS ADEPT: International Symposium on Automatic Detection of Errors in Pronunciation Training, (pp. 9–14). Stockholm: KTH, Computer Science and Communication Department of Speech, Music and Hearing.
Strik, H., Truong, K., de Wet, F., Cucchiarini, C. (2009). Comparing different approaches for automatic pronunciation error detection. Speech Communication, 51, 845–852.
Tajima, K., Dalby, J., Port, R. (1996). Foreign-accented rhythm and prosody in reiterant speech. Journal of the Acoustical Society of America, 99(4), 2493–2500.
Tajima, K., Port, R., Dalby, J. (1994). Influence of timing on intelligibility of foreign-accented English. Journal of the Acoustical Society of America, 95(5).
Van Doremalen, J., Cucchiarini, C., Strik, H. (2013). Automatic pronunciation error detection in non-native speech: the case of vowel errors in Dutch. The Journal of the Acoustical Society of America, 134(2), 1336–1347.
Viberg, O., y Grönlund, A. (2012). Mobile assisted language learning: a literature review. Proceedings of the 11th International Conference on Mobile and Contextual Learning. mLearn 2012, (pp. 9-16). Consultado en: http://ceur-ws-org/Vol-955/papers/paper-8.pdf
Wachowicz, K. A., y Scott, B. (1999). Software That Listens : It ’s Not a Question of Whether , It ’s a Question of How. CALICO Journal, 16(3), 253–276.
Witt, S. M. (2012). Automatic Error Detection in Pronunciation Training: Where we are and where we need to go. O. Engwall (Ed.), IS ADEPT: International Symposium on Automatic Detection of Errors in Pronunciation Training (pp. 1–8). Stockholm: KTH, Computer Science and Communication Department of Speech, Music and Hearing.
Zahra, A., Cabral, J. P., Kane, M., Carson-Berndsen, J. (2012). Automatic Classification of Pronunciation Errors Using Decision Trees and Speech Recognition Technology. O. Engwall (Ed.), IS ADEPT: International Symposium on Automatic Detection of Errors in Pronunciation Training, (pp. 65–69). Stockholm: KTH, Computer Science and Communication Department of Speech, Music and Hearing.
Zuo, X., Sumii, T., Iwahashi, N., Nakano, M., Funakoshi, K., Oka, N. (2011). Spoken interface for correcting phoneme recognition errors in learning of unknown words. The 25th Annual Conference of the Japanese Society for Artifical Intelligence. Consultado en: http://www.ii.is.kit.ac.jp/students/zuo/pdf/Zuo-2011JSAI.pdf !
– El prototipo de la app desarrollado para este estudio está disponible en: https://dl.dropboxusercontent.com/u/77426626/Prototipo1/Prototipo1_2/index.html – Una versión mejorada de la interfaz del prototipo se encuentra en: https://dl.dropboxusercontent.com/u/77426626/Prototipo_Versi%C3%B3n2/Prototype_versi%C3%B3n2/index.html