Más allá de los espectrogramas: repensando la clasificación de audio desde el espacio latente de EnCodec
Autores: Perianez-Pascual, Jorge; Gutiérrez, Juan D.; Escobar-Encinas, Laura; Rubio-Largo, Álvaro; Rodriguez-Echeverria, Roberto
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Más allá de los espectrogramas: repensando la clasificación de audio desde el espacio latente de EnCodec
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Enfoque
Clasificación de audio
EnCodec
Representación latente
Basado en espectrogramas
Red neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
Este documento presenta un enfoque novedoso para la clasificación de audio aprovechando la representación latente generada por el codec neural de audio EnCodec de Meta. Hipotetizamos que el espacio latente comprimido captura características de audio esenciales más adecuadas para tareas de clasificación que los enfoques tradicionales basados en espectrogramas. Entrenamos una red neuronal convolucional básica para la clasificación de género musical, discurso/música y sonidos ambientales utilizando la salida del codificador de EnCodec como entrada para validar esto. Luego, comparamos su rendimiento entrenando con la misma red utilizando una representación basada en espectrogramas como entrada. Nuestros experimentos demuestran que este enfoque logra una precisión comparable a los métodos de vanguardia, al mismo tiempo que muestra una convergencia significativamente más rápida y una carga computacional reducida durante el entrenamiento. Estos hallazgos sugieren el potencial de la representación latente de EnCodec para aplicaciones de clasificación de audio eficientes, más rápidas y menos costosas. Analizamos las características de la salida de EnCodec y comparamos su rendimiento con los enfoques tradicionales basados en espectrogramas, proporcionando información sobre las ventajas de este enfoque novedoso.
Descripción
Este documento presenta un enfoque novedoso para la clasificación de audio aprovechando la representación latente generada por el codec neural de audio EnCodec de Meta. Hipotetizamos que el espacio latente comprimido captura características de audio esenciales más adecuadas para tareas de clasificación que los enfoques tradicionales basados en espectrogramas. Entrenamos una red neuronal convolucional básica para la clasificación de género musical, discurso/música y sonidos ambientales utilizando la salida del codificador de EnCodec como entrada para validar esto. Luego, comparamos su rendimiento entrenando con la misma red utilizando una representación basada en espectrogramas como entrada. Nuestros experimentos demuestran que este enfoque logra una precisión comparable a los métodos de vanguardia, al mismo tiempo que muestra una convergencia significativamente más rápida y una carga computacional reducida durante el entrenamiento. Estos hallazgos sugieren el potencial de la representación latente de EnCodec para aplicaciones de clasificación de audio eficientes, más rápidas y menos costosas. Analizamos las características de la salida de EnCodec y comparamos su rendimiento con los enfoques tradicionales basados en espectrogramas, proporcionando información sobre las ventajas de este enfoque novedoso.