Modelo de Reconocimiento de Emociones Bimodal para Canciones Minnan
Autores: Xiang, Zhenglong; Dong, Xialei; Li, Yuanxiang; Yu, Fei; Xu, Xing; Wu, Hongrun
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Modelo de Reconocimiento de Emociones Bimodal para Canciones Minnan
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Artículos de investigación existentes
Reconocimiento de emociones
Canciones Minnan
Modelo
Red neuronal LSTM
CNN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La mayoría de los artículos de investigación existentes estudian el reconocimiento de emociones en canciones de Minnan desde las perspectivas de la teoría del análisis musical y la apreciación musical. Sin embargo, estas investigaciones no exploran ninguna posibilidad de llevar a cabo un reconocimiento automático de emociones en canciones de Minnan. En este artículo, proponemos un modelo que consiste en cuatro módulos principales para clasificar la emoción de las canciones de Minnan utilizando datos bimodales: letras de canciones y audio. En el modelo propuesto, se aplica una red neuronal de memoria a corto y largo plazo (LSTM) basada en atención para extraer características líricas, y se utiliza una red neuronal convolucional (CNN) para extraer las características de audio del espectro. Luego, dos tipos de características extraídas se concatenan mediante agrupamiento bilineal compacto multimodal, y finalmente, las características concatenadas se introducen en el módulo de clasificación para determinar la emoción de la canción. Diseñamos tres grupos de experimentos para investigar el rendimiento de clasificación de combinaciones de las cuatro partes principales, las comparaciones del modelo propuesto con los enfoques actuales y la influencia de algunos parámetros clave en el rendimiento del reconocimiento de emociones. Los resultados muestran que el modelo propuesto exhibe un mejor rendimiento que todos los demás grupos experimentales. La precisión, la exactitud y el recall del modelo propuesto superan 0.80 en una combinación de parámetros apropiados.
Descripción
La mayoría de los artículos de investigación existentes estudian el reconocimiento de emociones en canciones de Minnan desde las perspectivas de la teoría del análisis musical y la apreciación musical. Sin embargo, estas investigaciones no exploran ninguna posibilidad de llevar a cabo un reconocimiento automático de emociones en canciones de Minnan. En este artículo, proponemos un modelo que consiste en cuatro módulos principales para clasificar la emoción de las canciones de Minnan utilizando datos bimodales: letras de canciones y audio. En el modelo propuesto, se aplica una red neuronal de memoria a corto y largo plazo (LSTM) basada en atención para extraer características líricas, y se utiliza una red neuronal convolucional (CNN) para extraer las características de audio del espectro. Luego, dos tipos de características extraídas se concatenan mediante agrupamiento bilineal compacto multimodal, y finalmente, las características concatenadas se introducen en el módulo de clasificación para determinar la emoción de la canción. Diseñamos tres grupos de experimentos para investigar el rendimiento de clasificación de combinaciones de las cuatro partes principales, las comparaciones del modelo propuesto con los enfoques actuales y la influencia de algunos parámetros clave en el rendimiento del reconocimiento de emociones. Los resultados muestran que el modelo propuesto exhibe un mejor rendimiento que todos los demás grupos experimentales. La precisión, la exactitud y el recall del modelo propuesto superan 0.80 en una combinación de parámetros apropiados.