Más allá de los espectrogramas: repensando la clasificación de audio desde el espacio latente de EnCodec

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Más allá de los espectrogramas: repensando la clasificación de audio desde el espacio latente de EnCodec

Autores: Perianez-Pascual, Jorge; Gutiérrez, Juan D.; Escobar-Encinas, Laura; Rubio-Largo, Álvaro; Rodriguez-Echeverria, Roberto

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Más allá de los espectrogramas: repensando la clasificación de audio desde el espacio latente de EnCodec

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Enfoque

Clasificación de audio

EnCodec

Representación latente

Basado en espectrogramas

Red neuronal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 40

Citaciones: Sin citaciones

Este documento presenta un enfoque novedoso para la clasificación de audio aprovechando la representación latente generada por el codec neural de audio EnCodec de Meta. Hipotetizamos que el espacio latente comprimido captura características de audio esenciales más adecuadas para tareas de clasificación que los enfoques tradicionales basados en espectrogramas. Entrenamos una red neuronal convolucional básica para la clasificación de género musical, discurso/música y sonidos ambientales utilizando la salida del codificador de EnCodec como entrada para validar esto. Luego, comparamos su rendimiento entrenando con la misma red utilizando una representación basada en espectrogramas como entrada. Nuestros experimentos demuestran que este enfoque logra una precisión comparable a los métodos de vanguardia, al mismo tiempo que muestra una convergencia significativamente más rápida y una carga computacional reducida durante el entrenamiento. Estos hallazgos sugieren el potencial de la representación latente de EnCodec para aplicaciones de clasificación de audio eficientes, más rápidas y menos costosas. Analizamos las características de la salida de EnCodec y comparamos su rendimiento con los enfoques tradicionales basados en espectrogramas, proporcionando información sobre las ventajas de este enfoque novedoso.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro