Un marco basado en AIoT para la evaluación automatizada del habla en inglés: arquitectura, evaluación comparativa y análisis de fiabilidad de ASR de código abierto

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un marco basado en AIoT para la evaluación automatizada del habla en inglés: arquitectura, evaluación comparativa y análisis de fiabilidad de ASR de código abierto

Autores: Netinant, Paniti; Fooprateepsiri, Rerkchai; Rukhiran, Ajjima; Rukhiran, Meennapa

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Un marco basado en AIoT para la evaluación automatizada del habla en inglés: arquitectura, evaluación comparativa y análisis de fiabilidad de ASR de código abierto

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Dispositivos de borde

Reconocimiento automático de voz

Entornos de IoT

AIoT

Sistema de evaluación

Modelos de ASR

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La aparición de dispositivos de borde de bajo costo ha permitido la integración del reconocimiento automático de voz (ASR) en entornos de IoT, creando nuevas oportunidades para la evaluación del lenguaje en tiempo real. Sin embargo, lograr un rendimiento confiable en hardware con recursos limitados sigue siendo un desafío significativo, especialmente en el Internet Artificial de las Cosas (AIoT). Este estudio presenta un marco basado en AIoT para la evaluación automatizada del habla en inglés que integra arquitectura y diseño del sistema, evaluación comparativa de ASR y análisis de confiabilidad en dispositivos de borde. La arquitectura orientada a AIoT propuesta incorpora un marco de puntuación ligero capaz de analizar la pronunciación, fluidez, prosodia y competencia oral alineada con el MCER dentro de un sistema de evaluación automatizado. Se evaluaron sistemáticamente siete modelos de ASR de código abierto: cuatro variantes de Whisper (tiny, base, small y medium) y tres modelos de Vosk en términos de precisión de reconocimiento, latencia de inferencia y eficiencia computacional. Los resultados experimentales indican que Whisper-medium desplegado en la Raspberry Pi 5 logró el mejor rendimiento general, reduciendo la latencia de inferencia en un 42-48% en comparación con la Raspberry Pi 4 y alcanzando la tasa de error de palabras (WER) más baja del 6.8%. En contraste, modelos más pequeños como Whisper-tiny, con un WER del 26.7%, exhibieron una variabilidad de puntuación de dos a tres veces mayor, demostrando cómo los errores de reconocimiento se propagan en la confiabilidad de la evaluación automatizada. Las pruebas a nivel de sistema revelaron que la Raspberry Pi 5 puede mantener un procesamiento casi en tiempo real con aproximadamente un 58% de utilización de CPU y alrededor de 1.2 GB de memoria, mientras que la Raspberry Pi 4 frecuentemente se acerca a los límites operativos prácticos bajo cargas de trabajo comparables. La validación utilizando datos de habla de aprendices reales (aproximadamente 100 sesiones) confirmó que el sistema propuesto ofrece una evaluación de habla precisa, portátil y que preserva la privacidad utilizando hardware de borde de bajo consumo. En general, este trabajo introduce un marco de evaluación práctico basado en AIoT, proporciona un análisis comparativo completo de modelos de ASR de código abierto en plataformas de borde y ofrece conocimientos empíricos sobre las compensaciones entre precisión de reconocimiento, latencia de inferencia y estabilidad de puntuación en implementaciones de ASR basadas en borde.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro