Evaluación de rendimiento de reconocimiento de voz sin conexión en dispositivos de borde
Autores: Gondi, Santosh; Pratap, Vineel
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Evaluación de rendimiento de reconocimiento de voz sin conexión en dispositivos de borde
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo
Reconocimiento de voz
Dispositivos edge
Arquitectura basada en servidor
Rendimiento
Eficiencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 47
Citaciones: Sin citaciones
Las aplicaciones de reconocimiento de voz basadas en aprendizaje profundo han avanzado mucho en la última década. Los sistemas basados en aprendizaje profundo han evolucionado para lograr una mayor precisión mientras utilizan arquitecturas más simples de extremo a extremo, en comparación con sus predecesoras arquitecturas híbridas. La mayoría de estos sistemas de última generación se ejecutan en servidores backend con grandes cantidades de memoria y recursos de CPU/GPU. La principal desventaja del reconocimiento de voz basado en servidor es la falta de privacidad y seguridad para los datos de voz del usuario. Además, debido a la dependencia de la red, esta arquitectura basada en servidor no siempre puede ser fiable, eficiente y disponible. Sin embargo, el reconocimiento de voz sin conexión en dispositivos cliente supera estos problemas. Sin embargo, las limitaciones de recursos en dispositivos de borde más pequeños pueden plantear desafíos para lograr resultados de reconocimiento de voz de última generación. En este documento, evaluamos el rendimiento y la eficiencia de los sistemas de reconocimiento de voz basados en transformadores en dispositivos de borde. Evaluamos el rendimiento de inferencia en dos dispositivos de borde populares, Raspberry Pi y Nvidia Jetson Nano, ejecutándose en CPU y GPU, respectivamente. Concluimos que con la optimización y cuantificación móvil de PyTorch, los modelos pueden lograr inferencias en tiempo real en la CPU de Raspberry Pi con una pequeña degradación en la tasa de error de palabras. En la GPU de Jetson Nano, la latencia de inferencia es tres a cinco veces mejor en comparación con Raspberry Pi. La tasa de error de palabras en el borde sigue siendo mayor, pero no está muy lejos en comparación con la inferencia en el servidor.
Descripción
Las aplicaciones de reconocimiento de voz basadas en aprendizaje profundo han avanzado mucho en la última década. Los sistemas basados en aprendizaje profundo han evolucionado para lograr una mayor precisión mientras utilizan arquitecturas más simples de extremo a extremo, en comparación con sus predecesoras arquitecturas híbridas. La mayoría de estos sistemas de última generación se ejecutan en servidores backend con grandes cantidades de memoria y recursos de CPU/GPU. La principal desventaja del reconocimiento de voz basado en servidor es la falta de privacidad y seguridad para los datos de voz del usuario. Además, debido a la dependencia de la red, esta arquitectura basada en servidor no siempre puede ser fiable, eficiente y disponible. Sin embargo, el reconocimiento de voz sin conexión en dispositivos cliente supera estos problemas. Sin embargo, las limitaciones de recursos en dispositivos de borde más pequeños pueden plantear desafíos para lograr resultados de reconocimiento de voz de última generación. En este documento, evaluamos el rendimiento y la eficiencia de los sistemas de reconocimiento de voz basados en transformadores en dispositivos de borde. Evaluamos el rendimiento de inferencia en dos dispositivos de borde populares, Raspberry Pi y Nvidia Jetson Nano, ejecutándose en CPU y GPU, respectivamente. Concluimos que con la optimización y cuantificación móvil de PyTorch, los modelos pueden lograr inferencias en tiempo real en la CPU de Raspberry Pi con una pequeña degradación en la tasa de error de palabras. En la GPU de Jetson Nano, la latencia de inferencia es tres a cinco veces mejor en comparación con Raspberry Pi. La tasa de error de palabras en el borde sigue siendo mayor, pero no está muy lejos en comparación con la inferencia en el servidor.