logo móvil
Contáctanos

Modelando el lenguaje de señas con transformadores de solo codificador y datos de puntos clave de estimación de postura humana

Autores: Woods, Luke T.; Rana, Zeeshan A.

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Modelando el lenguaje de señas con transformadores de solo codificador y datos de puntos clave de estimación de postura humana


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Estudio
Lenguaje de Señas Americano
Transformadores de solo codificador
Estimación de postura humana
Datos de puntos clave
Conjunto de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 44

Citaciones: Sin citaciones


Descripción
Presentamos un estudio sobre la modelización del Lenguaje de Señas Americano (ASL) con transformadores de solo codificador y datos clave de estimación de postura humana. Utilizando una versión mejorada del conjunto de datos de ASL a nivel de palabra disponible públicamente (WLASL), y una novedosa técnica de normalización basada en el tamaño corporal del firmante, mostramos el impacto que la arquitectura del modelo tiene en la clasificación precisa de conjuntos de 10, 50, 100 y 300 signos dinámicos aislados utilizando únicamente coordenadas de puntos clave bidimensionales. Demostramos la importancia de ejecutar y reportar resultados de experimentos repetidos para describir y evaluar el rendimiento del modelo. Incluimos descripciones de los algoritmos utilizados para normalizar los datos y generar las divisiones de datos de entrenamiento, validación y prueba. Informamos los resultados de precisión top-1, top-5 y top-10, evaluados con dos métricas de punto de control de modelo separadas basadas en la precisión de validación y la pérdida. Encontramos que los modelos con menos de 100k parámetros aprendibles pueden lograr alta precisión en conjuntos de datos de vocabulario reducido, allanando el camino para que hardware de consumo liviano realice tareas que tradicionalmente son intensivas en recursos, requiriendo equipos costosos y de alta gama. Logramos precisión top-1, top-5 y top-10 de , , y , respectivamente, en un tamaño de vocabulario de 10 signos; , , y en 50 signos; , , y en 100 signos; y , , y en 300 signos, estableciendo así un nuevo punto de referencia para esta tarea.

Otros recursos que podrían interesarte

Temas Virtualpro