logo móvil
Contáctanos

Reconocimiento de emociones en el habla basado en red de contracción residual profunda

Autores: Han, Tian; Zhang, Zhu; Ren, Mingyuan; Dong, Changchun; Jiang, Xiaolin; Zhuang, Quansheng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Reconocimiento de emociones en el habla basado en red de contracción residual profunda


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de emociones en el habla
Tecnología SER
Mel-espectrograma
Red de contracción residual profunda
DRSN-BiGRU
Mecanismo de autoatención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
La tecnología de reconocimiento de emociones en el habla (SER) es significativa para la interacción humano-computadora, y este documento estudia las características y modelado de SER. Se introduce y utiliza el mel-espectrograma como característica del habla, y se presenta en detalle la teoría y el proceso de extracción del mel-espectrograma. En este documento se propone una red de contracción residual profunda con unidad recurrente bidireccional con compuertas (DRSN-BiGRU), que está compuesta por una red de convolución, una red de contracción residual, una unidad recurrente bidireccional y una red totalmente conectada. A través del mecanismo de autoatención, DRSN-BiGRU puede ignorar automáticamente la información ruidosa y mejorar la capacidad para aprender características efectivas. Se lleva a cabo la optimización de la red, experimento de verificación en tres conjuntos de datos emocionales (CASIA, IEMOCAP y MELD), y la precisión de DRSN-BiGRU es del 86.03%, 86.07% y 70.57%, respectivamente. Los resultados también se analizan y se comparan con DCNN-LSTM, CNN-BiLSTM y DRN-BiGRU, lo que verifica el rendimiento superior de DRSN-BiGRU.

Otros recursos que podrían interesarte

Temas Virtualpro