Reconocimiento de emociones en el habla monolingüe y multilingüe basado en la incrustación de emociones del dominio WavLM
Autores: Yang, Jichen; Liu, Jiahao; Huang, Kai; Xia, Jiaqi; Zhu, Zhengyu; Zhang, Han
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Reconocimiento de emociones en el habla monolingüe y multilingüe basado en la incrustación de emociones del dominio WavLM
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Enfoque propuesto
Información contextual
Proceso de extracción de características
Representación WavLM
Incrustaciones emocionales de dominio WavLM monolingües
Incrustaciones emocionales de dominio WavLM multilingües
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
A diferencia de enfoques anteriores en el reconocimiento de emociones en el habla (SER), que típicamente extraen incrustaciones de emoción de un clasificador entrenado que consiste en capas completamente conectadas y datos de entrenamiento sin considerar información contextual, esta investigación introduce un enfoque novedoso. Integra información contextual en el proceso de extracción de características. El enfoque propuesto se basa en la representación WavLM e incorpora una transformación contextual, junto con capas completamente conectadas, datos de entrenamiento e información de etiquetas correspondientes, para extraer incrustaciones de emoción del dominio WavLM monolingüe (SL-WDEEs) y del dominio WavLM de emociones cruzadas (CL-WDEEs) para SER monolingüe y SER multilingüe, respectivamente. Para extraer CL-WDEEs, se emplea el aprendizaje multi-tarea para eliminar la información del idioma, marcándolo como el primer trabajo para extraer incrustaciones de emoción para SER multilingüe. Los resultados experimentales en la base de datos IEMOCAP demuestran que el SL-WDEE propuesto supera a algunas características comúnmente utilizadas y sistemas conocidos, mientras que los resultados en la base de datos ESD indican que el CL-WDEE propuesto reconoce efectivamente emociones multilingües y supera a muchas características comúnmente utilizadas.
Descripción
A diferencia de enfoques anteriores en el reconocimiento de emociones en el habla (SER), que típicamente extraen incrustaciones de emoción de un clasificador entrenado que consiste en capas completamente conectadas y datos de entrenamiento sin considerar información contextual, esta investigación introduce un enfoque novedoso. Integra información contextual en el proceso de extracción de características. El enfoque propuesto se basa en la representación WavLM e incorpora una transformación contextual, junto con capas completamente conectadas, datos de entrenamiento e información de etiquetas correspondientes, para extraer incrustaciones de emoción del dominio WavLM monolingüe (SL-WDEEs) y del dominio WavLM de emociones cruzadas (CL-WDEEs) para SER monolingüe y SER multilingüe, respectivamente. Para extraer CL-WDEEs, se emplea el aprendizaje multi-tarea para eliminar la información del idioma, marcándolo como el primer trabajo para extraer incrustaciones de emoción para SER multilingüe. Los resultados experimentales en la base de datos IEMOCAP demuestran que el SL-WDEE propuesto supera a algunas características comúnmente utilizadas y sistemas conocidos, mientras que los resultados en la base de datos ESD indican que el CL-WDEE propuesto reconoce efectivamente emociones multilingües y supera a muchas características comúnmente utilizadas.