Investigación sobre el reconocimiento de emociones en el habla basado en la red AA-CBGRU
Autores: Yan, Yu; Shen, Xizhong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Investigación sobre el reconocimiento de emociones en el habla basado en la red AA-CBGRU
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emociones en el habla
Interacción humano-computadora
Modelo de red AA-CBGRU
Espectrograma
Red neuronal convolucional
Capa de atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 72
Citaciones: Sin citaciones
El reconocimiento de emociones en el habla es un campo de investigación emergente en el siglo XXI, que es de gran importancia para la interacción humano-computadora. Con el fin de permitir que varios dispositivos inteligentes reconozcan y comprendan mejor las emociones contenidas en el habla humana, en vista de los problemas de desaparición de gradientes y la pobre capacidad de aprendizaje de la información de series temporales en el modelo actual de clasificación de emociones en el habla, se propone un modelo de red AA-CBGRU para el reconocimiento de emociones en el habla. El modelo primero extrae el espectrograma y sus características de primera y segunda derivada de la señal de habla, luego extrae las características espaciales de las entradas a través de la red neuronal convolucional con bloques residuales, luego utiliza la red BGRU con una capa de atención para extraer información profunda de series temporales, y finalmente utiliza la capa de conexión completa para lograr el reconocimiento final de emociones. Los resultados experimentales en el corpus de sentimientos IEMOCAP muestran que el modelo en este documento mejora tanto la precisión ponderada (WA) como la precisión no ponderada (UA).
Descripción
El reconocimiento de emociones en el habla es un campo de investigación emergente en el siglo XXI, que es de gran importancia para la interacción humano-computadora. Con el fin de permitir que varios dispositivos inteligentes reconozcan y comprendan mejor las emociones contenidas en el habla humana, en vista de los problemas de desaparición de gradientes y la pobre capacidad de aprendizaje de la información de series temporales en el modelo actual de clasificación de emociones en el habla, se propone un modelo de red AA-CBGRU para el reconocimiento de emociones en el habla. El modelo primero extrae el espectrograma y sus características de primera y segunda derivada de la señal de habla, luego extrae las características espaciales de las entradas a través de la red neuronal convolucional con bloques residuales, luego utiliza la red BGRU con una capa de atención para extraer información profunda de series temporales, y finalmente utiliza la capa de conexión completa para lograr el reconocimiento final de emociones. Los resultados experimentales en el corpus de sentimientos IEMOCAP muestran que el modelo en este documento mejora tanto la precisión ponderada (WA) como la precisión no ponderada (UA).