logo móvil
Contáctanos

Evaluación Comparativa de Modelos LSTM y CNN 3D en un Sistema Híbrido para la Traducción de Signos a Texto Habilitada por IoT en Comunidades Sordas

Autores: Mouti, Samar; Al Chalabi, Hani; Abushohada, Mohammed; Rihawi, Samer; Abdalla, Sulafa

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Evaluación Comparativa de Modelos LSTM y CNN 3D en un Sistema Híbrido para la Traducción de Signos a Texto Habilitada por IoT en Comunidades Sordas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistema propuesto
Red LSTM
CNN 3D
Dispositivo Raspberry Pi
Rendimiento en tiempo real
Reconocimiento de lenguaje de señas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento presenta un marco híbrido de aprendizaje profundo para el reconocimiento de lenguaje de señas en tiempo real (SLR) adaptado a entornos habilitados para el Internet de las Cosas (IoT), mejorando la accesibilidad para las comunidades sordas. El sistema propuesto integra una red de Memoria a Largo y Corto Plazo (LSTM) para el reconocimiento de gestos estáticos y una Red Neuronal Convolucional 3D (3D CNN) para el reconocimiento de gestos dinámicos. Implementado en un dispositivo Raspberry Pi utilizando MediaPipe para la extracción de puntos de referencia, el sistema admite inferencia en el dispositivo con baja latencia, adecuada para la computación en el borde con recursos limitados. Los resultados experimentales demuestran que el modelo LSTM alcanza su mayor estabilidad y rendimiento para signos estáticos en 1000 épocas de entrenamiento, obteniendo un promedio de F1-score de 0.938 y una precisión del 86.67%. En contraste, a 2000 épocas, el modelo exhibe un colapso catastrófico en el rendimiento (F1-score de 0.088) debido al sobreajuste y la inestabilidad de pesos, lo que resalta la necesidad de una regulación cuidadosa del entrenamiento. A pesar de esto, el sistema en general logra un rendimiento de clasificación consistentemente alto en condiciones controladas. En contraste, el componente 3D CNN mantiene un rendimiento robusto y consistente en todas las fases de entrenamiento evaluadas (500-2000 épocas), logrando hasta un 99.6% de precisión en signos dinámicos. Cuando se implementa en una plataforma Raspberry Pi, el sistema logra un rendimiento en tiempo real con una tasa de cuadros de 12-15 FPS y una latencia promedio de inferencia de aproximadamente 65 ms por cuadro. La arquitectura híbrida equilibra efectivamente la precisión del reconocimiento con la eficiencia computacional al dirigir los gestos estáticos a la LSTM y los gestos dinámicos a la 3D CNN. Este trabajo presenta un análisis comparativo detallado por épocas de la estabilidad del modelo y la viabilidad computacional, contribuyendo con una solución práctica y escalable habilitada para IoT para la comunicación inclusiva de texto a señas en entornos inteligentes.

Otros recursos que podrían interesarte

Temas Virtualpro