Analizando y visualizando redes neuronales profundas para reconocimiento de voz con perfiles de activación de neuronas ajustados por saliencia
Autores: Krug, Andreas; Ebrahimzadeh, Maral; Alemann, Jost; Johannsmeier, Jens; Stober, Sebastian
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Analizando y visualizando redes neuronales profundas para reconocimiento de voz con perfiles de activación de neuronas ajustados por saliencia
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo
Reconocimiento automático del habla
Redes neuronales artificiales
Métodos de introspección
Perfiles de activación de neuronas ajustados por saliencia
Modelos ASR completamente convolucionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
Los modelos de Reconocimiento Automático del Habla (ASR) basados en Aprendizaje Profundo son muy exitosos, pero difíciles de interpretar. Para obtener una mejor comprensión de cómo las Redes Neuronales Artificiales (ANNs) logran sus tareas, se han propuesto varios métodos de introspección. Sin embargo, las técnicas de introspección establecidas están mayormente diseñadas para tareas de visión por computadora y dependen de que los datos sean visualmente interpretables, lo que limita su utilidad para comprender los modelos de reconocimiento del habla. Para superar esta limitación, desarrollamos una novedosa técnica inspirada en la neurociencia para visualizar y comprender ANNs, llamada Perfiles de Activación de Neuronas Ajustados por Saliencia (SNAPs). SNAPs es un marco flexible para analizar y visualizar Redes Neuronales Profundas que no depende de datos visualmente interpretables. En este trabajo, demostramos cómo utilizar SNAPs para comprender modelos ASR completamente convolucionales. Esto incluye la visualización de conceptos acústicos aprendidos por el modelo y el análisis comparativo de sus representaciones en las capas del modelo.
Descripción
Los modelos de Reconocimiento Automático del Habla (ASR) basados en Aprendizaje Profundo son muy exitosos, pero difíciles de interpretar. Para obtener una mejor comprensión de cómo las Redes Neuronales Artificiales (ANNs) logran sus tareas, se han propuesto varios métodos de introspección. Sin embargo, las técnicas de introspección establecidas están mayormente diseñadas para tareas de visión por computadora y dependen de que los datos sean visualmente interpretables, lo que limita su utilidad para comprender los modelos de reconocimiento del habla. Para superar esta limitación, desarrollamos una novedosa técnica inspirada en la neurociencia para visualizar y comprender ANNs, llamada Perfiles de Activación de Neuronas Ajustados por Saliencia (SNAPs). SNAPs es un marco flexible para analizar y visualizar Redes Neuronales Profundas que no depende de datos visualmente interpretables. En este trabajo, demostramos cómo utilizar SNAPs para comprender modelos ASR completamente convolucionales. Esto incluye la visualización de conceptos acústicos aprendidos por el modelo y el análisis comparativo de sus representaciones en las capas del modelo.