Evaluación Comparativa de Modelos LSTM y CNN 3D en un Sistema Híbrido para la Traducción de Signos a Texto Habilitada por IoT en Comunidades Sordas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluación Comparativa de Modelos LSTM y CNN 3D en un Sistema Híbrido para la Traducción de Signos a Texto Habilitada por IoT en Comunidades Sordas

Autores: Mouti, Samar; Al Chalabi, Hani; Abushohada, Mohammed; Rihawi, Samer; Abdalla, Sulafa

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Evaluación Comparativa de Modelos LSTM y CNN 3D en un Sistema Híbrido para la Traducción de Signos a Texto Habilitada por IoT en Comunidades Sordas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sistema propuesto

Red LSTM

CNN 3D

Dispositivo Raspberry Pi

Rendimiento en tiempo real

Reconocimiento de lenguaje de señas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento presenta un marco híbrido de aprendizaje profundo para el reconocimiento de lenguaje de señas en tiempo real (SLR) adaptado a entornos habilitados para el Internet de las Cosas (IoT), mejorando la accesibilidad para las comunidades sordas. El sistema propuesto integra una red de Memoria a Largo y Corto Plazo (LSTM) para el reconocimiento de gestos estáticos y una Red Neuronal Convolucional 3D (3D CNN) para el reconocimiento de gestos dinámicos. Implementado en un dispositivo Raspberry Pi utilizando MediaPipe para la extracción de puntos de referencia, el sistema admite inferencia en el dispositivo con baja latencia, adecuada para la computación en el borde con recursos limitados. Los resultados experimentales demuestran que el modelo LSTM alcanza su mayor estabilidad y rendimiento para signos estáticos en 1000 épocas de entrenamiento, obteniendo un promedio de F1-score de 0.938 y una precisión del 86.67%. En contraste, a 2000 épocas, el modelo exhibe un colapso catastrófico en el rendimiento (F1-score de 0.088) debido al sobreajuste y la inestabilidad de pesos, lo que resalta la necesidad de una regulación cuidadosa del entrenamiento. A pesar de esto, el sistema en general logra un rendimiento de clasificación consistentemente alto en condiciones controladas. En contraste, el componente 3D CNN mantiene un rendimiento robusto y consistente en todas las fases de entrenamiento evaluadas (500-2000 épocas), logrando hasta un 99.6% de precisión en signos dinámicos. Cuando se implementa en una plataforma Raspberry Pi, el sistema logra un rendimiento en tiempo real con una tasa de cuadros de 12-15 FPS y una latencia promedio de inferencia de aproximadamente 65 ms por cuadro. La arquitectura híbrida equilibra efectivamente la precisión del reconocimiento con la eficiencia computacional al dirigir los gestos estáticos a la LSTM y los gestos dinámicos a la 3D CNN. Este trabajo presenta un análisis comparativo detallado por épocas de la estabilidad del modelo y la viabilidad computacional, contribuyendo con una solución práctica y escalable habilitada para IoT para la comunicación inclusiva de texto a señas en entornos inteligentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro