Combinando el ajuste fino de wav2vec 2.0 y ConLearnNet para el reconocimiento de emociones en el habla
Autores: Sun, Chenjing; Zhou, Yi; Huang, Xin; Yang, Jichen; Hou, Xianhua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Combinando el ajuste fino de wav2vec 2.0 y ConLearnNet para el reconocimiento de emociones en el habla
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emociones
Entonación
Velocidad del habla
Red de retroalimentación
ConLearnNet
Clasificación de emociones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 59
Citaciones: Sin citaciones
El reconocimiento de emociones en el habla plantea desafíos debido a la variada expresión de emociones a través de la entonación y la velocidad del habla. Con el fin de reducir la pérdida de información emocional durante el proceso de reconocimiento y mejorar la extracción y clasificación de emociones en el habla para así mejorar la capacidad de reconocimiento de emociones en el habla, proponemos un enfoque novedoso en dos partes. En primer lugar, se introduce una red feed-forward con conexiones de salto (SCFFN) para ajustar finamente wav2vec 2.0 y extraer incrustaciones emocionales. Posteriormente, se emplea ConLearnNet para la clasificación de emociones. ConLearnNet consta de tres pasos: aprendizaje de características, aprendizaje contrastivo y clasificación. El aprendizaje de características transforma la entrada, mientras que el aprendizaje contrastivo fomenta representaciones similares para muestras de la misma categoría y representaciones discriminativas para diferentes categorías. Los resultados experimentales en los conjuntos de datos IEMOCAP y EMO-DB demuestran la superioridad de nuestro método propuesto en comparación con los sistemas de vanguardia. Logramos una WA y UAR del 72.86% y 72.85% en IEMOCAP, y del 97.20% y 96.41% en EMO-DB, respectivamente.
Descripción
El reconocimiento de emociones en el habla plantea desafíos debido a la variada expresión de emociones a través de la entonación y la velocidad del habla. Con el fin de reducir la pérdida de información emocional durante el proceso de reconocimiento y mejorar la extracción y clasificación de emociones en el habla para así mejorar la capacidad de reconocimiento de emociones en el habla, proponemos un enfoque novedoso en dos partes. En primer lugar, se introduce una red feed-forward con conexiones de salto (SCFFN) para ajustar finamente wav2vec 2.0 y extraer incrustaciones emocionales. Posteriormente, se emplea ConLearnNet para la clasificación de emociones. ConLearnNet consta de tres pasos: aprendizaje de características, aprendizaje contrastivo y clasificación. El aprendizaje de características transforma la entrada, mientras que el aprendizaje contrastivo fomenta representaciones similares para muestras de la misma categoría y representaciones discriminativas para diferentes categorías. Los resultados experimentales en los conjuntos de datos IEMOCAP y EMO-DB demuestran la superioridad de nuestro método propuesto en comparación con los sistemas de vanguardia. Logramos una WA y UAR del 72.86% y 72.85% en IEMOCAP, y del 97.20% y 96.41% en EMO-DB, respectivamente.