Mejorando la interpretación del lenguaje de señas árabe: aprovechando redes neuronales convolucionales y transfer learning

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la interpretación del lenguaje de señas árabe: aprovechando redes neuronales convolucionales y transfer learning

Autores: Al Ahmadi, Saad; Muhammad, Farah; Al Dawsari, Haya

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mejorando la interpretación del lenguaje de señas árabe: aprovechando redes neuronales convolucionales y transfer learning

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Comunicación

Lenguaje de señas

Intérpretes

Conjuntos de datos

Redes neuronales

Precisión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

En un mundo que simplifica la comunicación para la conexión humana, la comunidad sorda se enfrenta a barreras distintas. El lenguaje de señas, su principal método de comunicación, es rico en gestos manuales pero no es ampliamente comprendido fuera de su comunidad, lo que hace necesarios intérpretes. Las soluciones existentes para el reconocimiento del lenguaje de señas dependen de conjuntos de datos extensos para el entrenamiento del modelo, lo que arriesga el sobreajuste con modelos complejos. La escasez de detalles sobre los tamaños de los conjuntos de datos y las especificaciones del modelo en los estudios complica la escalabilidad y verificación de estas tecnologías. Además, la omisión de métricas de precisión precisas en algunas investigaciones deja en duda la efectividad del reconocimiento de gestos por estos modelos. Las fases clave de este estudio son la Recopilación de datos, el Preprocesamiento de datos, la Extracción de características utilizando CNN y finalmente la clasificación basada en transferencia de aprendizaje. El objetivo de utilizar CNN y transferencia de aprendizaje es aprovechar las redes neuronales pre-entrenadas para optimizar el rendimiento en nuevas tareas relacionadas mediante la reutilización de patrones aprendidos, acelerando así el desarrollo y mejorando la precisión. El preprocesamiento de datos implica además el redimensionamiento de imágenes, normalización, estandarización, conversión de espacio de color, aumento y reducción de ruido. Esta fase es capaz de podar el conjunto de datos de imágenes al mejorar la eficiencia del clasificador. En la fase subsiguiente, se ha realizado la extracción de características que incluye la capa de convolución, mapeo de características, capa de agrupación y capa de abandono para obtener características refinadas de las imágenes. Estas características refinadas se utilizan para la clasificación utilizando ResNet. Se utilizan tres conjuntos de datos diferentes para la evaluación del modelo propuesto. El conjunto de datos ASL-DS-I incluye un total de 5832 imágenes de gestos manuales, mientras que ASL-DS-II contiene 54,049 imágenes y el conjunto de datos ASL-DS-III incluye 7857 imágenes adoptadas de enlaces web especificados. Los resultados obtenidos han sido evaluados utilizando métricas estándar que incluyen la curva ROC, Precisión, Recall y F-measure. Un análisis experimental meticuloso y la comparación con tres métodos de referencia estándar demostraron que el modelo propuesto ofrece una impresionante precisión de reconocimiento del 96.25%, 95.85% y 97.02% en ASL-DS-I, ASL-DS-II y ASL-DS-III, respectivamente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro