Hardware-software co-diseño de un tubería de extracción de características de audio para aplicaciones de aprendizaje automático
Autores: Vrea, Jure; Pilipovi, Ratko; Biasizzo, Anton
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Hardware-software co-diseño de un tubería de extracción de características de audio para aplicaciones de aprendizaje automático
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de palabras clave
Tuberías modernas de reconocimiento de voz
Coeficiente Cepstral de Mel-Frecuencia
Características de audio
Generador de hardware
Modelos de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
La detección de palabras clave es una parte importante de los modernos sistemas de reconocimiento de voz. Los sistemas típicos de detección de palabras clave contemporáneos se basan en características de audio de coeficientes cepstrales de frecuencia melódica (MFCC), que son relativamente complejas de calcular. Dada la naturaleza siempre activa de muchos sistemas de detección de palabras clave, es prudente optimizar esta parte del proceso de detección. Exploramos las simplificaciones de las características de audio MFCC y derivamos una versión simplificada que puede ser utilizada más fácilmente en aplicaciones integradas. Además, implementamos un generador de hardware que crea un pipeline de hardware adecuado para la extracción de características de audio simplificadas. Utilizando el marco Chisel4ml, integramos generadores de hardware en el marco Keras basado en Python, lo que facilita el proceso de entrenamiento de los modelos de aprendizaje automático utilizando nuestras características de audio simplificadas.
Descripción
La detección de palabras clave es una parte importante de los modernos sistemas de reconocimiento de voz. Los sistemas típicos de detección de palabras clave contemporáneos se basan en características de audio de coeficientes cepstrales de frecuencia melódica (MFCC), que son relativamente complejas de calcular. Dada la naturaleza siempre activa de muchos sistemas de detección de palabras clave, es prudente optimizar esta parte del proceso de detección. Exploramos las simplificaciones de las características de audio MFCC y derivamos una versión simplificada que puede ser utilizada más fácilmente en aplicaciones integradas. Además, implementamos un generador de hardware que crea un pipeline de hardware adecuado para la extracción de características de audio simplificadas. Utilizando el marco Chisel4ml, integramos generadores de hardware en el marco Keras basado en Python, lo que facilita el proceso de entrenamiento de los modelos de aprendizaje automático utilizando nuestras características de audio simplificadas.