Reconocimiento de emociones musicales basado en una red neuronal con una estructura residual Inception-GRU
Autores: Han, Xiao; Chen, Fuyang; Ban, Junrong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de emociones musicales basado en una red neuronal con una estructura residual Inception-GRU
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de emociones musicales
Estructura de inicio
Extracción de características
Señales de tiempo
Red Neuronal Convolucional
Conjunto de datos de banda sonora
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Como un campo clave en la recuperación de información musical, el reconocimiento de emociones en la música es, de hecho, una tarea desafiante. Para mejorar la precisión de la clasificación y reconocimiento de emociones en la música, este artículo utiliza la idea de una estructura de inicio para usar diferentes campos receptivos para extraer características de diferentes dimensiones y realizar operaciones de compresión, expansión y recompresión para extraer características más efectivas y conectar las señales de tiempo en la red residual al módulo GRU para extraer características de tiempo. Se presentó y probó una Red Neuronal Convolucional (CNN) residual unidimensional (1D) con un módulo Inception mejorado y la Unidad Recurrente de Puerta (GRU) en el conjunto de datos de Soundtrack. Se utilizó la Transformada Rápida de Fourier (FFT) para procesar las muestras experimentalmente y determinar sus características espectrales. En comparación con los métodos de aprendizaje superficial como la máquina de vectores de soporte y el bosque aleatorio, y el método de aprendizaje profundo basado en la CNN de Grupo de Geometría Visual (VGG) propuesto por Sarkar et al., el método de aprendizaje profundo propuesto de la CNN 1D con la estructura residual de Inception-GRU demostró un mejor rendimiento en el reconocimiento y clasificación de emociones en la música, logrando una precisión del 84%.
Descripción
Como un campo clave en la recuperación de información musical, el reconocimiento de emociones en la música es, de hecho, una tarea desafiante. Para mejorar la precisión de la clasificación y reconocimiento de emociones en la música, este artículo utiliza la idea de una estructura de inicio para usar diferentes campos receptivos para extraer características de diferentes dimensiones y realizar operaciones de compresión, expansión y recompresión para extraer características más efectivas y conectar las señales de tiempo en la red residual al módulo GRU para extraer características de tiempo. Se presentó y probó una Red Neuronal Convolucional (CNN) residual unidimensional (1D) con un módulo Inception mejorado y la Unidad Recurrente de Puerta (GRU) en el conjunto de datos de Soundtrack. Se utilizó la Transformada Rápida de Fourier (FFT) para procesar las muestras experimentalmente y determinar sus características espectrales. En comparación con los métodos de aprendizaje superficial como la máquina de vectores de soporte y el bosque aleatorio, y el método de aprendizaje profundo basado en la CNN de Grupo de Geometría Visual (VGG) propuesto por Sarkar et al., el método de aprendizaje profundo propuesto de la CNN 1D con la estructura residual de Inception-GRU demostró un mejor rendimiento en el reconocimiento y clasificación de emociones en la música, logrando una precisión del 84%.