Un sistema de detección de palabras clave eficiente en recursos basado en una red neuronal convolucional binaria unidimensional
Autores: Yoon, Jinsung; Kim, Neungyun; Lee, Donghyun; Lee, Su-Jung; Kwak, Gil-Ho; Kim, Tae-Hwan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un sistema de detección de palabras clave eficiente en recursos basado en una red neuronal convolucional binaria unidimensional
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Propone
Eficiente en recursos
Detección de palabras clave
Red neuronal convolucional
Inferencia de 1D-CNN
Latencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
Este documento propone un sistema de detección de palabras clave (KWS) eficiente en recursos basado en una red neuronal convolucional (CNN). El proceso KWS de extremo a extremo se realiza únicamente en base a inferencia 1D-CNN, donde primero se extraen características de unos pocos bloques convolucionales, y luego las palabras clave se clasifican usando unos pocos bloques completamente conectados. El modelo 1D-CNN se binariza para reducir el uso de recursos, y su inferencia se ejecuta empleando un motor dedicado. Este motor está diseñado para omitir operaciones redundantes, lo que permite una alta velocidad de inferencia a pesar de su baja complejidad. El sistema propuesto se implementa utilizando 6895 ALUTs en una FPGA Intel Cyclone V integrando los componentes esenciales para realizar el proceso KWS. En el sistema, la latencia requerida para procesar un fotograma es de 22 ms, y la precisión de detección es del 91.80% en un entorno donde la relación señal-ruido es de 10 dB para el conjunto de datos de comandos de voz de Google versión 2.
Descripción
Este documento propone un sistema de detección de palabras clave (KWS) eficiente en recursos basado en una red neuronal convolucional (CNN). El proceso KWS de extremo a extremo se realiza únicamente en base a inferencia 1D-CNN, donde primero se extraen características de unos pocos bloques convolucionales, y luego las palabras clave se clasifican usando unos pocos bloques completamente conectados. El modelo 1D-CNN se binariza para reducir el uso de recursos, y su inferencia se ejecuta empleando un motor dedicado. Este motor está diseñado para omitir operaciones redundantes, lo que permite una alta velocidad de inferencia a pesar de su baja complejidad. El sistema propuesto se implementa utilizando 6895 ALUTs en una FPGA Intel Cyclone V integrando los componentes esenciales para realizar el proceso KWS. En el sistema, la latencia requerida para procesar un fotograma es de 22 ms, y la precisión de detección es del 91.80% en un entorno donde la relación señal-ruido es de 10 dB para el conjunto de datos de comandos de voz de Google versión 2.