Creación de una base de datos emocional bilingüe y multimodal

10
Creación de una base de datos emocional bilingüe y multimodal Juan M. López 1 , Idoia Cearreta 1 , Nestor Garay 1 , Karmele López de Ipiña 2 , Andoni Beristain 3 . 1 Laboratorio de Interacción Persona-Computador para Necesidades Especiales (LIPCNE) Universidad del País Vasco 2 Grupo de Inteligencia Computacional. Universidad del País Vasco 3 Innovae Visión, S.L. [email protected], [email protected], [email protected], [email protected], [email protected] Resumen. El presente artículo ilustra el proceso de creación de una base de datos emocional multimodal. Tras una breve revisión de las ventajas de crear este tipo de bases de datos, se describen diferentes trabajos realizados sobre bases de datos emocionales. Posteriormente, se describe el proceso de creación de la base de datos RekEmozio, una base de datos multimodal y bilingüe para el castellano y el vasco estándar. Finalmente se resaltan algunas de sus utilidades y trabajo futuro. 1 Introducción El ser humano es eminentemente emocional y gran parte de la interacción social se basa en la capacidad de comunicar emociones propias y percibir e interpretar estados emocionales ajenos [5]. Tanto la computación emocional, disciplina que desarrolla dispositivos para detectar y responder a emociones humanas, como la mediación emocional, basada en el uso de tecnología informatizada que permite la comunicación entre dos o más personas teniendo en cuenta sus estados emocionales [11, 20], son áreas de investigación emergentes [22]. El objetivo principal de la computación emocional consiste en capturar y procesar información emocional con el fin de mejorar la comunicación entre la persona y el computador, mientras que la mediación emocional intenta minimizar el filtrado de información emocional que realizan los dispositivos de comunicación, debido a que suelen estar dedicados a transmitir información verbal en lugar de la no verbal. Recursos emocionales tales como bases de datos emocionales resultan muy adecuados para el entrenamiento de aplicaciones emocionales, tanto para sistemas de reconocimiento como de síntesis emocional. Estos recursos emocionales suelen ser multimodales y suelen contener imágenes, sonidos, valores psicofisiológicos, etc. En este artículo se describe el procedimiento usado para crear una base de datos multimodal y bilingüe. La mayoría de los recursos emocionales presentes en la literatura están dedicados a otros idiomas (principalmente el inglés) y se ha encontrado la necesidad de desarrollar este tipo de recursos para el castellano y el

Transcript of Creación de una base de datos emocional bilingüe y multimodal

Creación de una base de datos emocional bilingüe y multimodal

Juan M. López1, Idoia Cearreta1, Nestor Garay1, Karmele López de Ipiña2, Andoni Beristain3.

1 Laboratorio de Interacción Persona-Computador para Necesidades Especiales (LIPCNE) Universidad del País Vasco

2 Grupo de Inteligencia Computacional. Universidad del País Vasco 3 Innovae Visión, S.L.

[email protected], [email protected], [email protected], [email protected], [email protected]

Resumen. El presente artículo ilustra el proceso de creación de una base de datos emocional multimodal. Tras una breve revisión de las ventajas de crear este tipo de bases de datos, se describen diferentes trabajos realizados sobre bases de datos emocionales. Posteriormente, se describe el proceso de creación de la base de datos RekEmozio, una base de datos multimodal y bilingüe para el castellano y el vasco estándar. Finalmente se resaltan algunas de sus utilidades y trabajo futuro.

1 Introducción

El ser humano es eminentemente emocional y gran parte de la interacción social se basa en la capacidad de comunicar emociones propias y percibir e interpretar estados emocionales ajenos [5]. Tanto la computación emocional, disciplina que desarrolla dispositivos para detectar y responder a emociones humanas, como la mediación emocional, basada en el uso de tecnología informatizada que permite la comunicación entre dos o más personas teniendo en cuenta sus estados emocionales [11, 20], son áreas de investigación emergentes [22].

El objetivo principal de la computación emocional consiste en capturar y procesar información emocional con el fin de mejorar la comunicación entre la persona y el computador, mientras que la mediación emocional intenta minimizar el filtrado de información emocional que realizan los dispositivos de comunicación, debido a que suelen estar dedicados a transmitir información verbal en lugar de la no verbal.

Recursos emocionales tales como bases de datos emocionales resultan muy adecuados para el entrenamiento de aplicaciones emocionales, tanto para sistemas de reconocimiento como de síntesis emocional. Estos recursos emocionales suelen ser multimodales y suelen contener imágenes, sonidos, valores psicofisiológicos, etc.

En este artículo se describe el procedimiento usado para crear una base de datos multimodal y bilingüe. La mayoría de los recursos emocionales presentes en la literatura están dedicados a otros idiomas (principalmente el inglés) y se ha encontrado la necesidad de desarrollar este tipo de recursos para el castellano y el

56 – López, J.M., Cearreta, I., Garay, N., López de Ipiña, K., Beristain, A.

vasco estándar. Especialmente para el vasco estándar, debido al ámbito de este idioma en particular.

En las siguientes páginas se presenta una revisión de los esfuerzos dedicados al desarrollo de recursos emocionales. A continuación, se presenta la base de datos RekEmozio y su proceso de grabación. Finalmente, se hace hincapié en varios aspectos relevantes del trabajo realizado y se presentan una serie de tareas que se están llevando a cabo a partir de los recursos emocionales recogidos en RekEmozio.

2 Trabajos relacionados

Existen una serie de trabajos en los que se realizan amplias revisiones sobre bases de datos emocionales existentes [6, 13, 16]. En [6] se menciona que gran parte de la investigación se basa en grabaciones de actores, tanto profesionales como amateurs. Sin embargo, existen muchas razones para ir más allá de datos actuados y se están dedicando muchos esfuerzos de investigación en conseguir otros tipos de datos. Tal y como se indica, los datos naturales son la alternativa ideal a grabar datos actuados, pero es muy difícil conseguir este tipo de datos. Asimismo, se plantean problemas de copyright y privacidad [8]. Otro problema fundamental es el escaso desarrollo de herramientas para la obtención de datos emocionales naturales. Una vía intermedia que se plantea entre los datos actuados y los naturales es la inducción de emociones [6]. También se debe tener en cuenta que una de las mayores dificultades para la investigación sobre bases de datos emocionales es el hecho de que la inducción es un arte incierto con complicaciones debido a aspectos éticos.

Algunas de las aplicaciones a desarrollar partiendo de estas bases de datos son mejorar el juicio humano de la emoción en situaciones en las que se requieren objetividad y precisión, o incorporar sistemas emocionales en aplicaciones de tutorización automática, en juegos o en la industria del entretenimiento [10], o incluso mejorar la calidad de los mensajes compuestos por sistemas de Comunicación Aumentativa y Alternativa [12]. Existen estudios sobre el uso de entidades artificiales (tales como avatares animados o robots autónomos) para validar modelos y sistemas emocionales, solventando así problemas éticos [4].

Muchas de las referencias encontradas en la literatura están relacionadas con el idioma inglés. Otros idiomas no tienen tantos recursos desarrollados, especialmente idiomas considerados minoritarios, como es el caso del vasco estándar. La única base de datos emocionales para el vasco estándar de la que se tiene referencia es la presentada por [17]. Para el castellano, se pueden resaltar los trabajos de [14, 21].

En la siguiente sección presentamos la base de datos RekEmozio, resaltando tanto el proceso llevado a cabo para su creación como sus características.

Creación de una base de datos emocional bilingüe y multimodal – 57

3 Base de datos RekEmozio

3.1 Descripción de la base de datos

La base de datos RekEmozio ha sido creada con el propósito de servir como un repositorio de información para realizar investigaciones sobre computación emocional. La base de datos está compuesta de grabaciones adquiridas mediante interacción con usuarios (en este caso actores). Teniendo en cuenta que la mayoría de las bases de datos emocionales existentes están compuestas simplemente de grabaciones realizadas con actores, nuestro propósito ha sido el de incluir en la base de datos información descriptiva sobre las grabaciones para permitir la identificación y categorización de cada una de ellas. Además, de esta manera se permite la posterior actualización de los datos referentes a las grabaciones para añadir información procedente de procesos de extracción de características emocionales relevantes.

De acuerdo a las instrucciones dadas a conocer en [8], una base de datos emocional multimodal puede ser descrita teniendo en cuenta cinco cuestiones principales: ámbito, naturalidad, contexto, descriptores y accesibilidad. Dichas cuestiones son descritas en este apartado.

3.1.1 Ámbito El ámbito de la base de datos RekEmozio se resume en la Tabla 1.

Tabla 1. Resumen del ámbito de la base de datos RekEmozio

Idioma Nº de Actores

Género (H/M)

Edad promedio

Desviación estándar Emociones

Vasco 7 4/3 31.28 5.15 Castellan

o10 5/5 30.70 4.08

tristeza, miedo, alegría, enfado, sorpresa, asco, neutral

Total 17 9/8 30.94 4.40 Se hizo uso de la clasificación categórica. Fueron utilizadas siete emociones: las

seis emociones básicas descritas por [9], además de la neutral. Estas emociones se escogieron principalmente debido a que en su trabajo Ekman y Friesen sugieren su universalidad para todas las culturas. Los 17 actores recibieron compensación económica por su cooperación.

3.1.2 Naturalidad − Modo de obtención de emociones: Voz e imágenes actuadas. − Material:

(a) Audio en ambos idiomas (castellano y vasco estándar): En la base de datos RekEmozio han sido utilizados textos de diferente longitud:

palabras, frases y párrafos. Para cada una de las 7 emociones consideradas los actores debían usar los textos específicos de cada emoción además de los textos usados para

58 – López, J.M., Cearreta, I., Garay, N., López de Ipiña, K., Beristain, A.

todas las emociones. En la Tabla 2 queda reflejada la distribución de los diferentes textos utilizados.

Tabla 2. Textos utilizados por cada emoción para cada idioma

Tipo de textos

Textos específicosde cada emoción

Textos usados en todas las emociones

Nº de textos usados

Nº de textos por actor

Palabras 5*7 5 40 70 Frases 3*7 3 24 42 Párrafos 3*7 3 24 42 Total 77 11 88 154 Los párrafos y frases utilizados se han compuesto utilizando un grupo de palabras

extraídos de un diccionario emocional en castellano (un diccionario de 1.987 palabras entre las que se hallan únicamente sustantivos, adjetivos, verbos e interjecciones). Este diccionario emocional se ha llevado a cabo a partir de las 2.358 palabras más frecuentes contenidas en la base de datos de [19], entre las que se seleccionaron los sustantivos, adjetivos, verbos e interjecciones. Para crear las frases y párrafos de la base de datos RekEmozio, las palabras del diccionario emocional se etiquetaron con las siete emociones con la ayuda de ANEW [3]. Debido a que cada palabra en ANEW tiene un valor asociado teniendo en cuenta las dimensiones de valencia, excitación y dominancia, sabiendo dónde se ubican las emociones usadas en función de esas dimensiones [7], se puede identificar la emoción categórica correspondiente. Los párrafos y frases con significado semántico se construyeron a partir de ese grupo de palabras, así como los que no tienen significado semántico se construyeron a partir de palabras etiquetadas como “neutras”. Por otro lado, para la creación los textos en vasco estándar, se tradujeron los textos del castellano.

Se pidió a los actores que pronunciasen cada palabra, frase y párrafo con la emoción indicada y los ficheros de audio resultantes fueron grabaron.

(b) Vídeo: Los videos se grabaron desde el frontal y el lateral izquierdo de la cara del actor.

De esta manera, pueden ser recuperados la localización y posibles deformaciones, rotaciones y traslaciones de todos los componentes faciales relevantes para el análisis emocional.

El procedimiento utilizado consistía en indicar al actor la emoción a interpretar dándole una ayuda visual consistente en imágenes de la base de datos de [9] y pedirle que tratase de reproducirla por imitación. Para cada emoción, se pide al actor que parta de un estado neutral inicial (sin expresión) alrededor de cinco segundos. Luego, el sujeto debía realizar lentamente seis transiciones consecutivas desde el estado neutral al correspondiente a la emoción dada (y vuelta al estado neutral) y mantenerse entre uno y dos segundos en cada estado, tanto con la cara neutra como expresando una emoción de manera facial.

3.1.3 Contexto − Contexto semántico: Como ya se ha descrito en la subsección de “Material”, se

pueden combinar siete posibles entonaciones emocionales con el contenido semántico de palabras, frases y párrafos.

Creación de una base de datos emocional bilingüe y multimodal – 59

− Contexto estructural: Textos con diferentes longitudes (palabras, frases y párrafos). − Contexto intermodal: El audio y el vídeo se grabaron por separado. − Contexto temporal: Palabras sueltas, frases y párrafos fueron usadas para estudiar

posteriormente la influencia de varios parámetros de voz (tales como el ritmo, el volumen, la longitud, el tono, etc.) y se recogió el patrón temporal de la expresión emocional en los ficheros de audio.

3.1.4 Descriptores − Codificación psicológica: Se ha tenido en cuenta la aproximación categórica para

codificar las grabaciones teniendo en cuenta las siete emociones descritas anteriormente. Una vez realizada una validación o estudio normativo, se obtendrán los valores emocionales de cada grabación con el fin de analizar la validez del material grabado y establecer el porcentaje de acierto sobre los valores emocionales de cada grabación.

− Codificación demográfica: Se han registrado datos demográficos sobre cada actor participante para determinar su influencia al analizar el habla o características faciales, tales como la edad, si es fumador o no, el idioma materno y la expresividad.

3.1.5 Accesibilidad Para las grabaciones en audio se ha utilizado el formato Wav, ya que no comprime ni pierde información. Esta decisión fue tomada debido a que los formatos que comprimen datos pierden precisión al analizar las señales de audio de este tipo de grabaciones. El principal inconveniente al usar el formato Wav es que se necesita una gran capacidad de almacenamiento con un gran número de grabaciones, al no haber compresión de los datos.

Por otro lado, para el caso de las grabaciones de video es aceptable usar datos comprimidos debido a que no hay evidencia alguna de que este hecho afecte el reconocimiento de emociones. En este caso, se usa el formato Avi, comprimido usando el codec DivX 5.0 (con una resolución de 320*240 puntos). De esta forma, las grabaciones requieren significativamente menos espacio de almacenamiento. La duración final de las grabaciones se resume en la Tabla 3.

Tabla 3. Duración de las grabaciones

Idioma Duración del audio

Duración del vídeo

Vasco 130’41’’ 53’52’’ Castellano 166’17’’ 40’4’’

Total 296’58’’ 93’56’’

60 – López, J.M., Cearreta, I., Garay, N., López de Ipiña, K., Beristain, A.

3.2 Proceso de grabación

3.2.1 Entorno Se hizo uso de un estudio de grabación para grabar los recursos de la base de datos. En dicho estudio, se puso una silla para que el actor se sentase durante sus grabaciones. Enfrente del actor y a su izquierda se situaron dos cámaras para las grabaciones de vídeo desde ambas perspectivas. Asimismo, enfrente del actor se ubicó un micrófono para grabar los sonidos a representar por el actor.

Al comienzo de las grabaciones se realizó un proceso de calibración para comprobar que tanto el audio como el vídeo se recibían adecuadamente. Cada actor hizo unas grabaciones de prueba a tal fin.

Un operario trabajando con un computador guiaba las sesiones de los actores. Todo el proceso de grabación se realizó por medio de aplicaciones que guiaban la sesión y grababan tanto el audio como el vídeo. Dichas aplicaciones se ejecutaban en el computador del operario. La información que tenía que darse a conocer al actor, incluyendo las instrucciones de grabación, se mostraba retroproyectando la salida del vídeo de la tarjeta gráfica del computador del operario a un proyector. Lo mismo sucedía con las palabras, frases y párrafos a dar a conocer al actor. Se tuvo especial cuidado en mitigar todas las posibles fuentes de distorsión de sonido para que no afectasen al proceso de grabar audio.

3.2.2 Herramientas Las sesiones de grabación de cada actor fueron llevadas a cabo utilizando Eweb [2, 15], un entorno de trabajo inicialmente concebido para diseñar e implantar experimentos controlados en entornos web. En el Módulo de Diseño de Sesión fue diseñada la sesión a llevar a cabo por los actores indicando las distintas variables a tener en cuenta y su orden de ejecución, en este caso compuesto de 7 bloques de grabaciones, uno por cada emoción, que son ejecutados aleatoriamente. Dicha información se describe en un fichero XML posteriormente utilizado por el Módulo de Guía y Monitorización del Usuario, que se encarga de ejecutar la sesión en un ordenador local. En este caso particular, el Módulo de Guía y Monitorización del Usuario se comunica vía sockets con dos aplicaciones, una para las grabaciones de audio y la otra para las grabaciones de vídeo. Se envían dos tipos de mensajes, uno para dar comienzo a las grabaciones y el otro para finalizarlas. La Figura 1 muestra las diferentes aplicaciones que se utilizan para realizar las grabaciones.

Ambas aplicaciones utilizan tecnología DirectShow (parte de Microsoft DirectX) para hacer las capturas y renderizarlas. Y ambas han sido creadas como módulos independientes para comunicarse por medio de sockets con la aplicación de guiado del proceso. En ambos casos, se hace uso de una nomenclatura especial para automatizar el proceso de guardar ficheros multimedia, de manera que esos ficheros se organizan en directorios según el actor, el tipo de medio y la emoción dada. En el caso de las grabaciones de audio, se hace una nueva distinción de acuerdo al tipo de texto fuente, la longitud y la semántica.

La aplicación de grabación de audio permite grabar los ficheros de audio con las características arriba descritas y escuchar el sonido grabado. Esto resulta muy útil para que el operario verifique la calidad de las grabaciones realizadas. La aplicación

Creación de una base de datos emocional bilingüe y multimodal – 61

de grabación de video es capaz de grabar vídeo simultáneamente desde el punto de vista frontal y lateral izquierdo.

Todos los datos se almacenan en una base de datos etiquetados según los actores, las emociones y los textos, tal y como se menciona en la siguiente subsección.

3.2.3 Procedimiento Una vez que el actor esté sentado y preparado, la sesión de grabación da comienzo para cada uno de ellos. Al comienzo, el actor ha de dar al operario una serie de informaciones para rellenar un cuestionario demográfico. El procedimiento de grabación es el mismo para cada idioma y se describe a continuación.

Figura 1. Aplicaciones utilizadas para realizar las grabaciones

El operario gestiona el proceso de grabación desde la interfaz de control creada por Eweb. Además, las interfaces para las aplicaciones de grabación de audio y vídeo son siempre visibles por lo que el operario puede ver y escuchar las grabaciones sin interferir en la sesión de grabación del actor. La Figura 2 muestra la interfaz del operario.

El actor ve las instrucciones que debe seguir retroproyectadas. En cada bloque, el actor tiene una sesión de entrenamiento. Hay que resaltar que el orden de presentación de los bloques de emoción se selecciona de manera aleatoria por Eweb, así como las diferentes grabaciones dentro de cada bloque. Ello es para evitar que todos los actores realicen la misma sesión en el mismo orden exacto, lo que puede aumentar el efecto de la fatiga sobre varias grabaciones.

Dentro del bloque de video, cada actor realiza, usando exclusivamente gestos faciales, seis transiciones de la emoción neutral a la emoción particular y vuelta a la

62 – López, J.M., Cearreta, I., Garay, N., López de Ipiña, K., Beristain, A.

emoción neutral. Para cada grabación se toman las secuencias de imágenes tanto de frente como de perfil.

En el caso del bloque de audio, dada una emoción por el sistema, el actor ha de expresar todas las palabras, frases y párrafos que se le indican. Antes de que el actor realice una grabación, se le muestra el texto de dicha grabación. De esta forma, el actor tiene tiempo para memorizarlo. Asimismo, se le muestra un icono con forma de bombilla verde, para que tenga constancia de que la grabación no ha dado comienzo todavía. Para hacer una grabación, el operario ha de pulsar el botón “Iniciar” en su interfaz de control en cuanto el actor esté listo para representar la grabación. Entonces, el comando de inicio de grabación se manda a la aplicación de grabación correspondiente (audio o vídeo, dependiendo de la grabación en curso) y se da comienzo a la grabación. Simultáneamente, el icono de la bombilla verde en la interfaz del actor es reemplazado por una bombilla roja para que el actor comience a grabar. Al pulsar el botón “Parar”, el operario da la orden de parar y la aplicación correspondiente acaba la grabación y la bombilla vuelve a ser verde. En el caso de que la grabación no sea válida para el operario, esa grabación concreta puede reintentarse pulsando el botón “Iniciar” otra vez. En este caso, la grabación anterior se pierde en detrimento de la nueva. Si la grabación se considera válida por el operario, al pulsar el botón “Siguiente” se continúa con el siguiente texto o imagen.

La duración de las sesiones para cada actor era de aproximadamente dos horas.

Figura 2. Interfaz de control del operario

3.3 Resultado

Tras completar el proceso de grabación, el resultado obtenido es una base de datos en donde quedan guardados en diferentes archivos los datos correspondientes a las grabaciones en audio y vídeo para cada idioma. Por otro lado, se guardan metadatos o información descriptiva sobre las grabaciones (actor, emoción, tipo de grabación, etc.), así como información demográfica sobre los actores que intervienen. Para las grabaciones de audio, se archivan el tipo de texto e información sobre el significado

Creación de una base de datos emocional bilingüe y multimodal – 63

semántico. Para las grabaciones de video, se almacena si la toma ha sido frontal o lateral. En total, la base de datos contiene 2.618 grabaciones de audio y 102 de video.

4 Conclusiones y trabajo futuro

Las bases de datos emocionales resultan muy útiles a la hora de desarrollar sistemas de computación emocional. Son utilizadas principalmente en sistemas de reconocimiento de emociones, pero también pueden usarse para desarrollar sistemas de síntesis de emociones.

Esta base de datos está siendo usada en la fecha para entrenar algunos sistemas de reconocimiento de emociones aplicados a la localización particular en donde los autores realizan sus investigaciones. Esta base de datos ha sido validada mediante metodología experimental con sujetos humanos [16] con la intención de extraer los mejores ejemplos grabados y usar estos ejemplos para identificar las interacciones más expresivas con el mínimo de ambigüedades y para seleccionar los datos más relevantes para entrenar sistemas de tratamiento de emociones. Además, se esta analizando su naturalidad, así como la relevancia de los parámetros de la voz que influyen en la expresión y el reconocimiento emocionales, sobre los que se han aplicado diferentes técnicas de aprendizaje automático para evaluar sus utilidades en el reconocimiento del habla emocional [1]. En un futuro, se pretende ampliar esta base de datos con grabaciones combinadas de audio y video.

Toda esta información está siendo usada para describir una ontología que tiene asociados elementos multimodales. La utilización de dicha ontología, en combinación con metodologías de ingeniería del software ayudará a desarrollar sistemas emocionales [18], tanto para la comunidad científica como para la industria.

Agradecimientos

Los autores agradecen la colaboración de las personas implicadas en la grabación de la base de datos RekEmozio. El presente trabajo ha recibido financiación del Departamento de Economía de la Diputación Foral de Gipuzkoa.

Referencias

1. Álvarez, A., Cearreta, I., López, J.M., Arruti, A., Lazkano, E., Sierra, B., & Garay, N. (2006). Feature Subset Selection based on Evolutionary Algorithms for automatic emotion recognition in spoken Spanish and Standard Basque languages. Lecture Notes in Artificial Intelligence (LNAI). In press.

2. Arrue, M., Fajardo, I., López, J.M. and Vigo, M. (2006). The Influence of Technical Web Accessibility and Usability in Web Quality Models. An Empirical Study. International Journal of Web Engineering and Technology. In press.

64 – López, J.M., Cearreta, I., Garay, N., López de Ipiña, K., Beristain, A.

3. Bradley, M.M. y Lang, P.J: Affective norms for English words (ANEW): Instruction manual and affective ratings. Gainesville, FL: The Center for Research in Psychophysiology, University of Florida (1999)

4. Canamero, L.: Emotion understanding from the perspective of autonomous robots research. Neural Networks, Vol. 18 (2005) 445-455

5. Casacuberta, D.: La mente humana: Diez Enigmas y 100 preguntas. Océano (Ed), Barcelona, Spain (2001) ISBN: 84-7556-122-5

6. Cowie, R., Douglas-Cowie, E., Cox, C.: Beyond emotion archetypes: Databases for emotion modelling using neural networks. Neural Networks Vol. 18 (2005) 371-388

7. Cowie, R., Douglas-Cowie, E., Savvidou, S., McMahon, E., Sawey, M. and Schröder, M.: 'Feeltrace': An Instrument For Recording Perceived Emotion In Real Time. In: ISCA Workshop on Speech & Emotion. Northern Ireland (2000) 19-24

8. Douglas-Cowie, E., Campbell, N., Cowie, Roach, P.: Emotional speech: Towards a new generation of databases. Speech Communication, Vol. 40 (2003) 33-60

9. Ekman, P., Friesen, W.: (1976). Pictures of facial affect. Consulting Psychologist Press, Palo Alto, CA (1976)

10. Fragopanagos N. F., Taylor J. G.: Emotion recognition in human-computer interaction. Neural Networks, Vol. 18 (2005) 389-405

11. Garay, N., Abascal, J., Gardeazabal, L.: Mediación emocional en sistemas de Comunicación Aumentativa y Alternativa. Revista Iberoamericana de Inteligencia Artificial, Vol. 16 (2002) 65-70

12. Garay, N., Cearreta, I., López, J.M. and Fajardo, I. (2006). Assistive Technology and Affective Mediation. Special Issue on Human Technology Journal. Vol. 2, No. 1. Pp. 55-83

13. Humaine: Retrieved March 10, 2006, from http://emotion-research.net/wiki/Databases 14. Iriondo, I., Guaus, R., Rodríguez, A., Lázaro, P., Montoya, N., Blanco, J. M., Bernadas, D.,

Oliver, J.M., Tena, D., Longhi, L.: Validation of an acoustical modelling of emotional expression in Spanish using speech synthesis techniques. In: SpeechEmotion’00 (2000) 161-166

15. López, J.M.: Development of a tool for the Design and Analysis of Experiments in the Web. In: Lorés, J., Navarro, R. (eds.): Proceedings of The 5th Spanish Human Computer Interaction Conference, Interacción 2004. Lleida (2004) 434-437

16. López, J.M., Cearreta, I., Fajardo, I. and Garay, N. (2006). Evaluating the validity of RekEmozio affective multimodal database with experimental subjects. Technical Report EHU-KAT-IK-04-06. University of the Basque Country

17. Navas, E., Hernáez, I., Castelruiz. A., Luengo, I.: Obtaining and Evaluating an Emotional Database for Prosody Modelling in Standard Basque. Lecture Notes on Artificial Intelligence, Vol 3206. Springer-Verlag, Berlin (2004) 393-400

18. Obrenovic, Z., Garay, N., López, J. M., Fajardo, I., Cearreta, I.: An ontology for description of emotional cues. In: J. Tao, T. Tan, R. W. Picard (eds.): Lecture Notes in Computer Science, Vol. 3784 - Proceedings of The First International Conference on Affective Computing & Intelligent Interaction (ACII’05). Beijing, China (2005) 505-512

19. Pérez, M. A., Alameda, J. R., Cuetos Vega, F.: Frecuencia, longitud y vecindad ortográfica de las palabras de 3 a 16 letras del diccionario de la lengua española (RAE, 1992), Vol. 8(2) (2003) 1-20

20. Picard, R. W.: Affective Computing. MIT Press, Cambridge, MA (1997) 21. Redondo, J., Fraga, I., Comesaña, M., Perea, M.: Estudio normativo del valor afectivo de

478 palabras españolas. Revista Psicológica, Vol. 26 (2005) 317-326 22. Tao, J., Tan, T.: Affective computing: A review. In: J. Tao, T. Tan, R. W. Picard (eds.):

Lecture Notes in Computer Science, Vol. 3784 - Proceedings of The First International Conference on Affective Computing & Intelligent Interaction (ACII’05). Beijing, China (2005) 981-995