logo móvil
Contáctanos

Evaluación de rendimiento de reconocimiento de voz sin conexión en dispositivos de borde

Autores: Gondi, Santosh; Pratap, Vineel

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Evaluación de rendimiento de reconocimiento de voz sin conexión en dispositivos de borde


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje profundo
Reconocimiento de voz
Dispositivos edge
Arquitectura basada en servidor
Rendimiento
Eficiencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 47

Citaciones: Sin citaciones


Descripción
Las aplicaciones de reconocimiento de voz basadas en aprendizaje profundo han avanzado mucho en la última década. Los sistemas basados en aprendizaje profundo han evolucionado para lograr una mayor precisión mientras utilizan arquitecturas más simples de extremo a extremo, en comparación con sus predecesoras arquitecturas híbridas. La mayoría de estos sistemas de última generación se ejecutan en servidores backend con grandes cantidades de memoria y recursos de CPU/GPU. La principal desventaja del reconocimiento de voz basado en servidor es la falta de privacidad y seguridad para los datos de voz del usuario. Además, debido a la dependencia de la red, esta arquitectura basada en servidor no siempre puede ser fiable, eficiente y disponible. Sin embargo, el reconocimiento de voz sin conexión en dispositivos cliente supera estos problemas. Sin embargo, las limitaciones de recursos en dispositivos de borde más pequeños pueden plantear desafíos para lograr resultados de reconocimiento de voz de última generación. En este documento, evaluamos el rendimiento y la eficiencia de los sistemas de reconocimiento de voz basados en transformadores en dispositivos de borde. Evaluamos el rendimiento de inferencia en dos dispositivos de borde populares, Raspberry Pi y Nvidia Jetson Nano, ejecutándose en CPU y GPU, respectivamente. Concluimos que con la optimización y cuantificación móvil de PyTorch, los modelos pueden lograr inferencias en tiempo real en la CPU de Raspberry Pi con una pequeña degradación en la tasa de error de palabras. En la GPU de Jetson Nano, la latencia de inferencia es tres a cinco veces mejor en comparación con Raspberry Pi. La tasa de error de palabras en el borde sigue siendo mayor, pero no está muy lejos en comparación con la inferencia en el servidor.

Otros recursos que podrían interesarte

Temas Virtualpro