Mapeo de emociones discretas en el espacio dimensional: un enfoque acústico
Autores: Trnka, Marián; Darjaa, Sakhia; Ritomský, Marian; Sabo, Róbert; Rusko, Milan; Schaper, Meilin; Stelkens-Kobsch, Tim H.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Mapeo de emociones discretas en el espacio dimensional: un enfoque acústico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Relación
Espacio emocional
X-vectores
Regresor de Vectores de Soporte
Anotación dimensional
Dimensiones emocionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
Un procedimiento frecuentemente utilizado para examinar la relación entre descripciones categóricas y dimensionales de las emociones es pedir a los sujetos que coloquen expresiones verbales que representan emociones en un espacio emocional multidimensional continuo. Este trabajo elige un enfoque diferente. Su objetivo es crear un sistema que prediga los valores de Activación y Valentía (AV) directamente a partir del sonido de enunciados emocionales sin utilizar su contenido semántico ni otra información adicional. El sistema utiliza X-vectores para representar las características sonoras del enunciado y un Regresor de Vectores de Soporte para estimar los valores de AV. El sistema se entrena en un conjunto de tres bases de datos públicas con anotaciones dimensionales de emociones. La calidad de la regresión se evalúa en los conjuntos de prueba de las mismas bases de datos. La asignación de emociones categóricas al espacio dimensional se prueba en otro conjunto de ocho bases de datos categorizadas. El objetivo del trabajo era probar si en cada base de datos no vista, los valores predichos de Valentía y Activación colocarán los enunciados etiquetados con emociones en el espacio AV de acuerdo con las expectativas basadas en el modelo circunflejo de espacio afectivo de Russell. Debido a la gran variabilidad de los datos de habla, los grupos de emociones crean nubes superpuestas. Su ubicación promedio puede ser representada por centroides. Se formula y evalúa una hipótesis sobre la posición de estos centroides. La capacidad del sistema para separar las emociones se evalúa midiendo la distancia de los centroides. Se puede concluir que el sistema funciona según lo esperado y las posiciones de los grupos siguen las reglas hipotetizadas. Aunque la varianza en las mediciones individuales sigue siendo muy alta y la superposición de grupos de emociones es grande, se puede afirmar que las coordenadas de AV predichas por el sistema conducen a una separación observable de las emociones de acuerdo con la hipótesis. Por lo tanto, el conocimiento de las bases de datos de entrenamiento puede utilizarse para predecir las coordenadas de AV de datos no vistos de diversos orígenes. Esto podría usarse para detectar altos niveles de estrés o depresión. Con la aparición de más datos de entrenamiento anotados dimensionalmente, los sistemas que predicen dimensiones emocionales a partir del sonido del habla se volverán más robustos y útiles en aplicaciones prácticas en centros de llamadas, avatares, robots, sistemas de información, aplicaciones de seguridad, entre otros.
Descripción
Un procedimiento frecuentemente utilizado para examinar la relación entre descripciones categóricas y dimensionales de las emociones es pedir a los sujetos que coloquen expresiones verbales que representan emociones en un espacio emocional multidimensional continuo. Este trabajo elige un enfoque diferente. Su objetivo es crear un sistema que prediga los valores de Activación y Valentía (AV) directamente a partir del sonido de enunciados emocionales sin utilizar su contenido semántico ni otra información adicional. El sistema utiliza X-vectores para representar las características sonoras del enunciado y un Regresor de Vectores de Soporte para estimar los valores de AV. El sistema se entrena en un conjunto de tres bases de datos públicas con anotaciones dimensionales de emociones. La calidad de la regresión se evalúa en los conjuntos de prueba de las mismas bases de datos. La asignación de emociones categóricas al espacio dimensional se prueba en otro conjunto de ocho bases de datos categorizadas. El objetivo del trabajo era probar si en cada base de datos no vista, los valores predichos de Valentía y Activación colocarán los enunciados etiquetados con emociones en el espacio AV de acuerdo con las expectativas basadas en el modelo circunflejo de espacio afectivo de Russell. Debido a la gran variabilidad de los datos de habla, los grupos de emociones crean nubes superpuestas. Su ubicación promedio puede ser representada por centroides. Se formula y evalúa una hipótesis sobre la posición de estos centroides. La capacidad del sistema para separar las emociones se evalúa midiendo la distancia de los centroides. Se puede concluir que el sistema funciona según lo esperado y las posiciones de los grupos siguen las reglas hipotetizadas. Aunque la varianza en las mediciones individuales sigue siendo muy alta y la superposición de grupos de emociones es grande, se puede afirmar que las coordenadas de AV predichas por el sistema conducen a una separación observable de las emociones de acuerdo con la hipótesis. Por lo tanto, el conocimiento de las bases de datos de entrenamiento puede utilizarse para predecir las coordenadas de AV de datos no vistos de diversos orígenes. Esto podría usarse para detectar altos niveles de estrés o depresión. Con la aparición de más datos de entrenamiento anotados dimensionalmente, los sistemas que predicen dimensiones emocionales a partir del sonido del habla se volverán más robustos y útiles en aplicaciones prácticas en centros de llamadas, avatares, robots, sistemas de información, aplicaciones de seguridad, entre otros.