Un modelo interpretable de aprendizaje profundo para clasificación automática de sonido
Autores: Zinemanas, Pablo; Rocamora, Martín; Miron, Marius; Font, Frederic; Serra, Xavier
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un modelo interpretable de aprendizaje profundo para clasificación automática de sonido
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Modelos de aprendizaje profundo
Estructura de caja negra
Ataques adversariales
Sesgos
Modelo de aprendizaje profundo interpretable
Clasificación de sonido
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los modelos de aprendizaje profundo han mejorado las tecnologías de vanguardia en muchas áreas de investigación, pero su estructura de caja negra dificulta la comprensión de su funcionamiento interno y la lógica detrás de sus predicciones. Esto puede llevar a efectos no deseados, como ser susceptibles a ataques adversariales o al refuerzo de sesgos. Todavía hay una falta de investigación en el dominio del audio, a pesar del creciente interés en desarrollar modelos de aprendizaje profundo que proporcionen explicaciones de sus decisiones. Para reducir esta brecha, proponemos un nuevo modelo de aprendizaje profundo interpretable para la clasificación automática de sonidos, que explica sus predicciones basadas en la similitud de la entrada a un conjunto de prototipos aprendidos en un espacio latente. Aprovechamos el conocimiento del dominio al diseñar una medida de similitud dependiente de la frecuencia y al considerar diferentes resoluciones tiempo-frecuencia en el espacio de características. El modelo propuesto logra resultados comparables a los de los métodos de vanguardia en tres tareas diferentes de clasificación de sonidos que involucran habla, música y audio ambiental. Además, presentamos dos métodos automáticos para podar el modelo propuesto que explotan su interpretabilidad. Nuestro sistema es de código abierto y está acompañado de una aplicación web para la edición manual del modelo, que permite un enfoque de depuración de humano en el ciclo.
Descripción
Los modelos de aprendizaje profundo han mejorado las tecnologías de vanguardia en muchas áreas de investigación, pero su estructura de caja negra dificulta la comprensión de su funcionamiento interno y la lógica detrás de sus predicciones. Esto puede llevar a efectos no deseados, como ser susceptibles a ataques adversariales o al refuerzo de sesgos. Todavía hay una falta de investigación en el dominio del audio, a pesar del creciente interés en desarrollar modelos de aprendizaje profundo que proporcionen explicaciones de sus decisiones. Para reducir esta brecha, proponemos un nuevo modelo de aprendizaje profundo interpretable para la clasificación automática de sonidos, que explica sus predicciones basadas en la similitud de la entrada a un conjunto de prototipos aprendidos en un espacio latente. Aprovechamos el conocimiento del dominio al diseñar una medida de similitud dependiente de la frecuencia y al considerar diferentes resoluciones tiempo-frecuencia en el espacio de características. El modelo propuesto logra resultados comparables a los de los métodos de vanguardia en tres tareas diferentes de clasificación de sonidos que involucran habla, música y audio ambiental. Además, presentamos dos métodos automáticos para podar el modelo propuesto que explotan su interpretabilidad. Nuestro sistema es de código abierto y está acompañado de una aplicación web para la edición manual del modelo, que permite un enfoque de depuración de humano en el ciclo.