Reconocimiento de emociones en el habla basado en red de contracción residual profunda
Autores: Han, Tian; Zhang, Zhu; Ren, Mingyuan; Dong, Changchun; Jiang, Xiaolin; Zhuang, Quansheng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de emociones en el habla basado en red de contracción residual profunda
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emociones en el habla
Tecnología SER
Mel-espectrograma
Red de contracción residual profunda
DRSN-BiGRU
Mecanismo de autoatención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
La tecnología de reconocimiento de emociones en el habla (SER) es significativa para la interacción humano-computadora, y este documento estudia las características y modelado de SER. Se introduce y utiliza el mel-espectrograma como característica del habla, y se presenta en detalle la teoría y el proceso de extracción del mel-espectrograma. En este documento se propone una red de contracción residual profunda con unidad recurrente bidireccional con compuertas (DRSN-BiGRU), que está compuesta por una red de convolución, una red de contracción residual, una unidad recurrente bidireccional y una red totalmente conectada. A través del mecanismo de autoatención, DRSN-BiGRU puede ignorar automáticamente la información ruidosa y mejorar la capacidad para aprender características efectivas. Se lleva a cabo la optimización de la red, experimento de verificación en tres conjuntos de datos emocionales (CASIA, IEMOCAP y MELD), y la precisión de DRSN-BiGRU es del 86.03%, 86.07% y 70.57%, respectivamente. Los resultados también se analizan y se comparan con DCNN-LSTM, CNN-BiLSTM y DRN-BiGRU, lo que verifica el rendimiento superior de DRSN-BiGRU.
Descripción
La tecnología de reconocimiento de emociones en el habla (SER) es significativa para la interacción humano-computadora, y este documento estudia las características y modelado de SER. Se introduce y utiliza el mel-espectrograma como característica del habla, y se presenta en detalle la teoría y el proceso de extracción del mel-espectrograma. En este documento se propone una red de contracción residual profunda con unidad recurrente bidireccional con compuertas (DRSN-BiGRU), que está compuesta por una red de convolución, una red de contracción residual, una unidad recurrente bidireccional y una red totalmente conectada. A través del mecanismo de autoatención, DRSN-BiGRU puede ignorar automáticamente la información ruidosa y mejorar la capacidad para aprender características efectivas. Se lleva a cabo la optimización de la red, experimento de verificación en tres conjuntos de datos emocionales (CASIA, IEMOCAP y MELD), y la precisión de DRSN-BiGRU es del 86.03%, 86.07% y 70.57%, respectivamente. Los resultados también se analizan y se comparan con DCNN-LSTM, CNN-BiLSTM y DRN-BiGRU, lo que verifica el rendimiento superior de DRSN-BiGRU.