Evaluación Comparativa de Modelos LSTM y CNN 3D en un Sistema Híbrido para la Traducción de Signos a Texto Habilitada por IoT en Comunidades Sordas
Autores: Mouti, Samar; Al Chalabi, Hani; Abushohada, Mohammed; Rihawi, Samer; Abdalla, Sulafa
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Evaluación Comparativa de Modelos LSTM y CNN 3D en un Sistema Híbrido para la Traducción de Signos a Texto Habilitada por IoT en Comunidades Sordas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sistema propuesto
Red LSTM
CNN 3D
Dispositivo Raspberry Pi
Rendimiento en tiempo real
Reconocimiento de lenguaje de señas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta un marco híbrido de aprendizaje profundo para el reconocimiento de lenguaje de señas en tiempo real (SLR) adaptado a entornos habilitados para el Internet de las Cosas (IoT), mejorando la accesibilidad para las comunidades sordas. El sistema propuesto integra una red de Memoria a Largo y Corto Plazo (LSTM) para el reconocimiento de gestos estáticos y una Red Neuronal Convolucional 3D (3D CNN) para el reconocimiento de gestos dinámicos. Implementado en un dispositivo Raspberry Pi utilizando MediaPipe para la extracción de puntos de referencia, el sistema admite inferencia en el dispositivo con baja latencia, adecuada para la computación en el borde con recursos limitados. Los resultados experimentales demuestran que el modelo LSTM alcanza su mayor estabilidad y rendimiento para signos estáticos en 1000 épocas de entrenamiento, obteniendo un promedio de F1-score de 0.938 y una precisión del 86.67%. En contraste, a 2000 épocas, el modelo exhibe un colapso catastrófico en el rendimiento (F1-score de 0.088) debido al sobreajuste y la inestabilidad de pesos, lo que resalta la necesidad de una regulación cuidadosa del entrenamiento. A pesar de esto, el sistema en general logra un rendimiento de clasificación consistentemente alto en condiciones controladas. En contraste, el componente 3D CNN mantiene un rendimiento robusto y consistente en todas las fases de entrenamiento evaluadas (500-2000 épocas), logrando hasta un 99.6% de precisión en signos dinámicos. Cuando se implementa en una plataforma Raspberry Pi, el sistema logra un rendimiento en tiempo real con una tasa de cuadros de 12-15 FPS y una latencia promedio de inferencia de aproximadamente 65 ms por cuadro. La arquitectura híbrida equilibra efectivamente la precisión del reconocimiento con la eficiencia computacional al dirigir los gestos estáticos a la LSTM y los gestos dinámicos a la 3D CNN. Este trabajo presenta un análisis comparativo detallado por épocas de la estabilidad del modelo y la viabilidad computacional, contribuyendo con una solución práctica y escalable habilitada para IoT para la comunicación inclusiva de texto a señas en entornos inteligentes.
Descripción
Este documento presenta un marco híbrido de aprendizaje profundo para el reconocimiento de lenguaje de señas en tiempo real (SLR) adaptado a entornos habilitados para el Internet de las Cosas (IoT), mejorando la accesibilidad para las comunidades sordas. El sistema propuesto integra una red de Memoria a Largo y Corto Plazo (LSTM) para el reconocimiento de gestos estáticos y una Red Neuronal Convolucional 3D (3D CNN) para el reconocimiento de gestos dinámicos. Implementado en un dispositivo Raspberry Pi utilizando MediaPipe para la extracción de puntos de referencia, el sistema admite inferencia en el dispositivo con baja latencia, adecuada para la computación en el borde con recursos limitados. Los resultados experimentales demuestran que el modelo LSTM alcanza su mayor estabilidad y rendimiento para signos estáticos en 1000 épocas de entrenamiento, obteniendo un promedio de F1-score de 0.938 y una precisión del 86.67%. En contraste, a 2000 épocas, el modelo exhibe un colapso catastrófico en el rendimiento (F1-score de 0.088) debido al sobreajuste y la inestabilidad de pesos, lo que resalta la necesidad de una regulación cuidadosa del entrenamiento. A pesar de esto, el sistema en general logra un rendimiento de clasificación consistentemente alto en condiciones controladas. En contraste, el componente 3D CNN mantiene un rendimiento robusto y consistente en todas las fases de entrenamiento evaluadas (500-2000 épocas), logrando hasta un 99.6% de precisión en signos dinámicos. Cuando se implementa en una plataforma Raspberry Pi, el sistema logra un rendimiento en tiempo real con una tasa de cuadros de 12-15 FPS y una latencia promedio de inferencia de aproximadamente 65 ms por cuadro. La arquitectura híbrida equilibra efectivamente la precisión del reconocimiento con la eficiencia computacional al dirigir los gestos estáticos a la LSTM y los gestos dinámicos a la 3D CNN. Este trabajo presenta un análisis comparativo detallado por épocas de la estabilidad del modelo y la viabilidad computacional, contribuyendo con una solución práctica y escalable habilitada para IoT para la comunicación inclusiva de texto a señas en entornos inteligentes.