logo móvil
Contáctanos

Reconocimiento de emociones en el habla monolingüe y multilingüe basado en la incrustación de emociones del dominio WavLM

Autores: Yang, Jichen; Liu, Jiahao; Huang, Kai; Xia, Jiaqi; Zhu, Zhengyu; Zhang, Han

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Reconocimiento de emociones en el habla monolingüe y multilingüe basado en la incrustación de emociones del dominio WavLM


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Enfoque propuesto
Información contextual
Proceso de extracción de características
Representación WavLM
Incrustaciones emocionales de dominio WavLM monolingües
Incrustaciones emocionales de dominio WavLM multilingües

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
A diferencia de enfoques anteriores en el reconocimiento de emociones en el habla (SER), que típicamente extraen incrustaciones de emoción de un clasificador entrenado que consiste en capas completamente conectadas y datos de entrenamiento sin considerar información contextual, esta investigación introduce un enfoque novedoso. Integra información contextual en el proceso de extracción de características. El enfoque propuesto se basa en la representación WavLM e incorpora una transformación contextual, junto con capas completamente conectadas, datos de entrenamiento e información de etiquetas correspondientes, para extraer incrustaciones de emoción del dominio WavLM monolingüe (SL-WDEEs) y del dominio WavLM de emociones cruzadas (CL-WDEEs) para SER monolingüe y SER multilingüe, respectivamente. Para extraer CL-WDEEs, se emplea el aprendizaje multi-tarea para eliminar la información del idioma, marcándolo como el primer trabajo para extraer incrustaciones de emoción para SER multilingüe. Los resultados experimentales en la base de datos IEMOCAP demuestran que el SL-WDEE propuesto supera a algunas características comúnmente utilizadas y sistemas conocidos, mientras que los resultados en la base de datos ESD indican que el CL-WDEE propuesto reconoce efectivamente emociones multilingües y supera a muchas características comúnmente utilizadas.

Otros recursos que podrían interesarte

Temas Virtualpro