Modelando el lenguaje de señas con transformadores de solo codificador y datos de puntos clave de estimación de postura humana
Autores: Woods, Luke T.; Rana, Zeeshan A.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelando el lenguaje de señas con transformadores de solo codificador y datos de puntos clave de estimación de postura humana
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Estudio
Lenguaje de Señas Americano
Transformadores de solo codificador
Estimación de postura humana
Datos de puntos clave
Conjunto de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Presentamos un estudio sobre la modelización del Lenguaje de Señas Americano (ASL) con transformadores de solo codificador y datos clave de estimación de postura humana. Utilizando una versión mejorada del conjunto de datos de ASL a nivel de palabra disponible públicamente (WLASL), y una novedosa técnica de normalización basada en el tamaño corporal del firmante, mostramos el impacto que la arquitectura del modelo tiene en la clasificación precisa de conjuntos de 10, 50, 100 y 300 signos dinámicos aislados utilizando únicamente coordenadas de puntos clave bidimensionales. Demostramos la importancia de ejecutar y reportar resultados de experimentos repetidos para describir y evaluar el rendimiento del modelo. Incluimos descripciones de los algoritmos utilizados para normalizar los datos y generar las divisiones de datos de entrenamiento, validación y prueba. Informamos los resultados de precisión top-1, top-5 y top-10, evaluados con dos métricas de punto de control de modelo separadas basadas en la precisión de validación y la pérdida. Encontramos que los modelos con menos de 100k parámetros aprendibles pueden lograr alta precisión en conjuntos de datos de vocabulario reducido, allanando el camino para que hardware de consumo liviano realice tareas que tradicionalmente son intensivas en recursos, requiriendo equipos costosos y de alta gama. Logramos precisión top-1, top-5 y top-10 de , , y , respectivamente, en un tamaño de vocabulario de 10 signos; , , y en 50 signos; , , y en 100 signos; y , , y en 300 signos, estableciendo así un nuevo punto de referencia para esta tarea.
Descripción
Presentamos un estudio sobre la modelización del Lenguaje de Señas Americano (ASL) con transformadores de solo codificador y datos clave de estimación de postura humana. Utilizando una versión mejorada del conjunto de datos de ASL a nivel de palabra disponible públicamente (WLASL), y una novedosa técnica de normalización basada en el tamaño corporal del firmante, mostramos el impacto que la arquitectura del modelo tiene en la clasificación precisa de conjuntos de 10, 50, 100 y 300 signos dinámicos aislados utilizando únicamente coordenadas de puntos clave bidimensionales. Demostramos la importancia de ejecutar y reportar resultados de experimentos repetidos para describir y evaluar el rendimiento del modelo. Incluimos descripciones de los algoritmos utilizados para normalizar los datos y generar las divisiones de datos de entrenamiento, validación y prueba. Informamos los resultados de precisión top-1, top-5 y top-10, evaluados con dos métricas de punto de control de modelo separadas basadas en la precisión de validación y la pérdida. Encontramos que los modelos con menos de 100k parámetros aprendibles pueden lograr alta precisión en conjuntos de datos de vocabulario reducido, allanando el camino para que hardware de consumo liviano realice tareas que tradicionalmente son intensivas en recursos, requiriendo equipos costosos y de alta gama. Logramos precisión top-1, top-5 y top-10 de , , y , respectivamente, en un tamaño de vocabulario de 10 signos; , , y en 50 signos; , , y en 100 signos; y , , y en 300 signos, estableciendo así un nuevo punto de referencia para esta tarea.