logo móvil
Contáctanos

Mejorando la interpretación del lenguaje de señas árabe: aprovechando redes neuronales convolucionales y transfer learning

Autores: Al Ahmadi, Saad; Muhammad, Farah; Al Dawsari, Haya

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Mejorando la interpretación del lenguaje de señas árabe: aprovechando redes neuronales convolucionales y transfer learning


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Comunicación
Lenguaje de señas
Intérpretes
Conjuntos de datos
Redes neuronales
Precisión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones


Descripción
En un mundo que simplifica la comunicación para la conexión humana, la comunidad sorda se enfrenta a barreras distintas. El lenguaje de señas, su principal método de comunicación, es rico en gestos manuales pero no es ampliamente comprendido fuera de su comunidad, lo que hace necesarios intérpretes. Las soluciones existentes para el reconocimiento del lenguaje de señas dependen de conjuntos de datos extensos para el entrenamiento del modelo, lo que arriesga el sobreajuste con modelos complejos. La escasez de detalles sobre los tamaños de los conjuntos de datos y las especificaciones del modelo en los estudios complica la escalabilidad y verificación de estas tecnologías. Además, la omisión de métricas de precisión precisas en algunas investigaciones deja en duda la efectividad del reconocimiento de gestos por estos modelos. Las fases clave de este estudio son la Recopilación de datos, el Preprocesamiento de datos, la Extracción de características utilizando CNN y finalmente la clasificación basada en transferencia de aprendizaje. El objetivo de utilizar CNN y transferencia de aprendizaje es aprovechar las redes neuronales pre-entrenadas para optimizar el rendimiento en nuevas tareas relacionadas mediante la reutilización de patrones aprendidos, acelerando así el desarrollo y mejorando la precisión. El preprocesamiento de datos implica además el redimensionamiento de imágenes, normalización, estandarización, conversión de espacio de color, aumento y reducción de ruido. Esta fase es capaz de podar el conjunto de datos de imágenes al mejorar la eficiencia del clasificador. En la fase subsiguiente, se ha realizado la extracción de características que incluye la capa de convolución, mapeo de características, capa de agrupación y capa de abandono para obtener características refinadas de las imágenes. Estas características refinadas se utilizan para la clasificación utilizando ResNet. Se utilizan tres conjuntos de datos diferentes para la evaluación del modelo propuesto. El conjunto de datos ASL-DS-I incluye un total de 5832 imágenes de gestos manuales, mientras que ASL-DS-II contiene 54,049 imágenes y el conjunto de datos ASL-DS-III incluye 7857 imágenes adoptadas de enlaces web especificados. Los resultados obtenidos han sido evaluados utilizando métricas estándar que incluyen la curva ROC, Precisión, Recall y F-measure. Un análisis experimental meticuloso y la comparación con tres métodos de referencia estándar demostraron que el modelo propuesto ofrece una impresionante precisión de reconocimiento del 96.25%, 95.85% y 97.02% en ASL-DS-I, ASL-DS-II y ASL-DS-III, respectivamente.

Otros recursos que podrían interesarte

Temas Virtualpro