Combinando el ajuste fino de wav2vec 2.0 y ConLearnNet para el reconocimiento de emociones en el habla

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Combinando el ajuste fino de wav2vec 2.0 y ConLearnNet para el reconocimiento de emociones en el habla

Autores: Sun, Chenjing; Zhou, Yi; Huang, Xin; Yang, Jichen; Hou, Xianhua

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Combinando el ajuste fino de wav2vec 2.0 y ConLearnNet para el reconocimiento de emociones en el habla

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de emociones

Entonación

Velocidad del habla

Red de retroalimentación

ConLearnNet

Clasificación de emociones

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 59

Citaciones: Sin citaciones

El reconocimiento de emociones en el habla plantea desafíos debido a la variada expresión de emociones a través de la entonación y la velocidad del habla. Con el fin de reducir la pérdida de información emocional durante el proceso de reconocimiento y mejorar la extracción y clasificación de emociones en el habla para así mejorar la capacidad de reconocimiento de emociones en el habla, proponemos un enfoque novedoso en dos partes. En primer lugar, se introduce una red feed-forward con conexiones de salto (SCFFN) para ajustar finamente wav2vec 2.0 y extraer incrustaciones emocionales. Posteriormente, se emplea ConLearnNet para la clasificación de emociones. ConLearnNet consta de tres pasos: aprendizaje de características, aprendizaje contrastivo y clasificación. El aprendizaje de características transforma la entrada, mientras que el aprendizaje contrastivo fomenta representaciones similares para muestras de la misma categoría y representaciones discriminativas para diferentes categorías. Los resultados experimentales en los conjuntos de datos IEMOCAP y EMO-DB demuestran la superioridad de nuestro método propuesto en comparación con los sistemas de vanguardia. Logramos una WA y UAR del 72.86% y 72.85% en IEMOCAP, y del 97.20% y 96.41% en EMO-DB, respectivamente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro