logo móvil
Contáctanos

Un marco basado en AIoT para la evaluación automatizada del habla en inglés: arquitectura, evaluación comparativa y análisis de fiabilidad de ASR de código abierto

Autores: Netinant, Paniti; Fooprateepsiri, Rerkchai; Rukhiran, Ajjima; Rukhiran, Meennapa

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Un marco basado en AIoT para la evaluación automatizada del habla en inglés: arquitectura, evaluación comparativa y análisis de fiabilidad de ASR de código abierto


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Dispositivos de borde
Reconocimiento automático de voz
Entornos de IoT
AIoT
Sistema de evaluación
Modelos de ASR

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La aparición de dispositivos de borde de bajo costo ha permitido la integración del reconocimiento automático de voz (ASR) en entornos de IoT, creando nuevas oportunidades para la evaluación del lenguaje en tiempo real. Sin embargo, lograr un rendimiento confiable en hardware con recursos limitados sigue siendo un desafío significativo, especialmente en el Internet Artificial de las Cosas (AIoT). Este estudio presenta un marco basado en AIoT para la evaluación automatizada del habla en inglés que integra arquitectura y diseño del sistema, evaluación comparativa de ASR y análisis de confiabilidad en dispositivos de borde. La arquitectura orientada a AIoT propuesta incorpora un marco de puntuación ligero capaz de analizar la pronunciación, fluidez, prosodia y competencia oral alineada con el MCER dentro de un sistema de evaluación automatizado. Se evaluaron sistemáticamente siete modelos de ASR de código abierto: cuatro variantes de Whisper (tiny, base, small y medium) y tres modelos de Vosk en términos de precisión de reconocimiento, latencia de inferencia y eficiencia computacional. Los resultados experimentales indican que Whisper-medium desplegado en la Raspberry Pi 5 logró el mejor rendimiento general, reduciendo la latencia de inferencia en un 42-48% en comparación con la Raspberry Pi 4 y alcanzando la tasa de error de palabras (WER) más baja del 6.8%. En contraste, modelos más pequeños como Whisper-tiny, con un WER del 26.7%, exhibieron una variabilidad de puntuación de dos a tres veces mayor, demostrando cómo los errores de reconocimiento se propagan en la confiabilidad de la evaluación automatizada. Las pruebas a nivel de sistema revelaron que la Raspberry Pi 5 puede mantener un procesamiento casi en tiempo real con aproximadamente un 58% de utilización de CPU y alrededor de 1.2 GB de memoria, mientras que la Raspberry Pi 4 frecuentemente se acerca a los límites operativos prácticos bajo cargas de trabajo comparables. La validación utilizando datos de habla de aprendices reales (aproximadamente 100 sesiones) confirmó que el sistema propuesto ofrece una evaluación de habla precisa, portátil y que preserva la privacidad utilizando hardware de borde de bajo consumo. En general, este trabajo introduce un marco de evaluación práctico basado en AIoT, proporciona un análisis comparativo completo de modelos de ASR de código abierto en plataformas de borde y ofrece conocimientos empíricos sobre las compensaciones entre precisión de reconocimiento, latencia de inferencia y estabilidad de puntuación en implementaciones de ASR basadas en borde.

Otros recursos que podrían interesarte

Temas Virtualpro