Reconocimiento de la lengua de señas colombiana mediante redes neuronales con memoria a largo y corto plazo
Autores: Rivera Vásquez, Diego Fernando; González Serrano, Carolina
Idioma: Español
Editor: Universidad Pedagógica y Tecnológica de Colombia - UPTC
Año: 2025
Acceso abierto
Reconocimiento de la lengua de señas colombiana mediante redes neuronales con memoria a largo y corto plazo
Categoría
Subcategoría
Palabras clave
Licencia
Consultas: 24
Citaciones: Revista Facultad de Ingeniería Vol. 34 Núm. 71
Este estudio explora el uso de redes neuronales de memoria larga a corto plazo para el reconocimiento del la lengua de señas colombiana. Abarca tanto señas estáticas (letras) como dinámicas (palabras). Los resultados muestran que el modelo alcanzó una precisión del 90 % en el reconocimiento de letras y del 82 % en palabras, y se logró identificar en promedio 27 señas independientes. Se analizaron, además, distintas estrategias de extracción de características espaciotemporales por medio de MediaPipe y se encontró que para detectar señas estáticas solo bastan los puntos de control de manos y para señas dinámicas se necesitan los puntos de control de manos y postura. Sin embargo, los resultados no superaron el 90 % de precisión alcanzado en estudios internacionales, lo que sugiere que la calidad y cantidad del conjunto de datos utilizado podría mejorarse. Como trabajo futuro, se plantea evaluar el desempeño del modelo en tiempo real, con el fin de facilitar la comunicación entre personas sordas y oyentes. También se recomienda explorar arquitecturas de aprendizaje profundo más avanzadas, como redes convolucionales de gráficos, redes neuronales transformer o combinaciones de red neuronal convolucional con memoria larga a corto plazo; estas han mostrado buenos resultados en el reconocimiento de signos dinámicos.
Este estudio explora el uso de redes neuronales de memoria larga a corto plazo para el reconocimiento del la lengua de señas colombiana. Abarca tanto señas estáticas (letras) como dinámicas (palabras). Los resultados muestran que el modelo alcanzó una precisión del 90 % en el reconocimiento de letras y del 82 % en palabras, y se logró identificar en promedio 27 señas independientes. Se analizaron, además, distintas estrategias de extracción de características espaciotemporales por medio de MediaPipe y se encontró que para detectar señas estáticas solo bastan los puntos de control de manos y para señas dinámicas se necesitan los puntos de control de manos y postura. Sin embargo, los resultados no superaron el 90 % de precisión alcanzado en estudios internacionales, lo que sugiere que la calidad y cantidad del conjunto de datos utilizado podría mejorarse. Como trabajo futuro, se plantea evaluar el desempeño del modelo en tiempo real, con el fin de facilitar la comunicación entre personas sordas y oyentes. También se recomienda explorar arquitecturas de aprendizaje profundo más avanzadas, como redes convolucionales de gráficos, redes neuronales transformer o combinaciones de red neuronal convolucional con memoria larga a corto plazo; estas han mostrado buenos resultados en el reconocimiento de signos dinámicos.