Entrenamiento de un Modelo Basado en Filtros de la Cóclea en el Contexto de Modelos Acústicos Preentrenados
Autores: Coppieters de Gibson, Louise; Garner, Philip N.
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Entrenamiento de un Modelo Basado en Filtros de la Cóclea en el Contexto de Modelos Acústicos Preentrenados
Categoría
Artes
Subcategoría
Música
Palabras clave
Investigación
Auditivo
Procesamiento del habla
Modelos
Cóclea
Híbrido
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
La investigación auditiva tiene como objetivo general llevar a la comprensión de los procesos fisiológicos. Por el contrario, el estado del arte en el procesamiento automático del habla (notablemente el reconocimiento) está dominado por grandes modelos preentrenados que se utilizan como cajas negras. En este trabajo, integramos un modelo fisiológicamente plausible (aunque basado en un filtro simple) de la cóclea en un modelo acústico preentrenado mucho más grande para el reconocimiento del habla. Mostramos que el sistema híbrido puede ser entrenado y evaluado con varias combinaciones de ajuste fino y auto-supervisión. Los resultados muestran en términos generales que el sistema produce automáticamente estructuras que se sabe que funcionan bien. Además, estas estructuras carecen de artefactos que eran evidentes en nuestro trabajo anterior utilizando modelos neuronales menos sofisticados. Concluimos que la estructura híbrida es una forma apropiada de avanzar en la investigación auditiva, permitiendo más generalmente que el trabajo aproveche modelos y bases de datos más grandes de los cuales de otro modo no se beneficiaría.
Descripción
La investigación auditiva tiene como objetivo general llevar a la comprensión de los procesos fisiológicos. Por el contrario, el estado del arte en el procesamiento automático del habla (notablemente el reconocimiento) está dominado por grandes modelos preentrenados que se utilizan como cajas negras. En este trabajo, integramos un modelo fisiológicamente plausible (aunque basado en un filtro simple) de la cóclea en un modelo acústico preentrenado mucho más grande para el reconocimiento del habla. Mostramos que el sistema híbrido puede ser entrenado y evaluado con varias combinaciones de ajuste fino y auto-supervisión. Los resultados muestran en términos generales que el sistema produce automáticamente estructuras que se sabe que funcionan bien. Además, estas estructuras carecen de artefactos que eran evidentes en nuestro trabajo anterior utilizando modelos neuronales menos sofisticados. Concluimos que la estructura híbrida es una forma apropiada de avanzar en la investigación auditiva, permitiendo más generalmente que el trabajo aproveche modelos y bases de datos más grandes de los cuales de otro modo no se beneficiaría.