Transcripción de voz a texto en tiempo real en el borde: un sistema prototipo para comunicación de ultra baja latencia con procesamiento de lenguaje natural impulsado por IA
Autores: Di Leo, Stefano; De Cicco, Luca; Mascolo, Saverio
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Transcripción de voz a texto en tiempo real en el borde: un sistema prototipo para comunicación de ultra baja latencia con procesamiento de lenguaje natural impulsado por IA
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Tiempo real
Conversión de voz a texto
Computación en el borde
Privacidad
Rendimiento
Latencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta un sistema de conversión de voz a texto (STT) en tiempo real diseñado para entornos de computación en el borde que requieren una latencia ultra baja y procesamiento local. A diferencia de los servicios STT basados en la nube, la solución propuesta se ejecuta completamente en una infraestructura local, lo que permite la protección de la privacidad del usuario y proporciona un alto rendimiento en escenarios con limitaciones de ancho de banda o fuera de línea. El sistema diseñado se basa en la captura de audio nativa del navegador a través de WebRTC, transmisión en tiempo real con WebSocket y reconocimiento automático de voz (ASR) fuera de línea utilizando el motor Vosk. Un componente de procesamiento de lenguaje natural (NLP), implementado como un microservicio, mejora los resultados de transcripción en cuanto a precisión ortográfica y claridad. Nuestro prototipo alcanza una latencia de extremo a extremo de menos de un segundo y fuertes capacidades de transcripción en condiciones realistas. Además, la arquitectura modular permite la extensibilidad, la integración de modelos de IA avanzados y adaptaciones específicas del dominio.
Descripción
Este documento presenta un sistema de conversión de voz a texto (STT) en tiempo real diseñado para entornos de computación en el borde que requieren una latencia ultra baja y procesamiento local. A diferencia de los servicios STT basados en la nube, la solución propuesta se ejecuta completamente en una infraestructura local, lo que permite la protección de la privacidad del usuario y proporciona un alto rendimiento en escenarios con limitaciones de ancho de banda o fuera de línea. El sistema diseñado se basa en la captura de audio nativa del navegador a través de WebRTC, transmisión en tiempo real con WebSocket y reconocimiento automático de voz (ASR) fuera de línea utilizando el motor Vosk. Un componente de procesamiento de lenguaje natural (NLP), implementado como un microservicio, mejora los resultados de transcripción en cuanto a precisión ortográfica y claridad. Nuestro prototipo alcanza una latencia de extremo a extremo de menos de un segundo y fuertes capacidades de transcripción en condiciones realistas. Además, la arquitectura modular permite la extensibilidad, la integración de modelos de IA avanzados y adaptaciones específicas del dominio.