Explorando la Aumento de Conjuntos de Datos de Lengua de Señas con Videos de Inteligencia Artificial Generativa: Un Estudio de Caso Usando Datos de Lengua de Señas Americana Generados por Adobe Firefly
Autores: Bercaru, Valentin; Popescu, Nirvana
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Explorando la Aumento de Conjuntos de Datos de Lengua de Señas con Videos de Inteligencia Artificial Generativa: Un Estudio de Caso Usando Datos de Lengua de Señas Americana Generados por Adobe Firefly
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de lenguaje de señas
Conjuntos de datos
Inteligencia artificial generativa
Lenguaje de señas americano
Red neuronal convolucional
Aumento de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Actualmente, los conjuntos de datos de alta calidad centrados en el reconocimiento de lenguaje de señas son privados, propietarios o difíciles de obtener debido a los costos. Por lo tanto, nuestro objetivo es mitigar este problema aumentando un conjunto de datos disponible públicamente con datos generados artificialmente para enriquecer y obtener un conjunto de datos más diverso. El rendimiento de los sistemas de reconocimiento de lenguaje de señas (SLR) depende en gran medida de la calidad y diversidad de los conjuntos de datos de entrenamiento. Sin embargo, adquirir datos de video de lenguaje de señas a gran escala y bien anotados sigue siendo un desafío significativo. Este experimento explora el uso de la inteligencia artificial generativa (GenAI), específicamente Adobe Firefly, para crear datos de video sintético para el deletreo en lenguaje de señas americano (ASL). Se seleccionaron trece letras de 26 para la generación, y se sintetizaron y procesaron videos cortos que representan cada signo en cuadros estáticos. Estos cuadros sintéticos reemplazaron aproximadamente el 7.5% del conjunto de datos original y se integraron en los datos de entrenamiento de un modelo de red neuronal convolucional (CNN) disponible públicamente. Después de volver a entrenar el modelo con el conjunto de datos aumentado, la precisión no disminuyó. Además, la precisión de validación fue aproximadamente la misma. El modelo resultante alcanzó una precisión máxima del 98.04%. Si bien la ganancia de rendimiento fue limitada (menos del 1%), el enfoque ilustra la viabilidad de utilizar herramientas de GenAI para generar datos de entrenamiento y apoya la investigación adicional en la augmentación de datos para tareas de SLR de bajos recursos.
Descripción
Actualmente, los conjuntos de datos de alta calidad centrados en el reconocimiento de lenguaje de señas son privados, propietarios o difíciles de obtener debido a los costos. Por lo tanto, nuestro objetivo es mitigar este problema aumentando un conjunto de datos disponible públicamente con datos generados artificialmente para enriquecer y obtener un conjunto de datos más diverso. El rendimiento de los sistemas de reconocimiento de lenguaje de señas (SLR) depende en gran medida de la calidad y diversidad de los conjuntos de datos de entrenamiento. Sin embargo, adquirir datos de video de lenguaje de señas a gran escala y bien anotados sigue siendo un desafío significativo. Este experimento explora el uso de la inteligencia artificial generativa (GenAI), específicamente Adobe Firefly, para crear datos de video sintético para el deletreo en lenguaje de señas americano (ASL). Se seleccionaron trece letras de 26 para la generación, y se sintetizaron y procesaron videos cortos que representan cada signo en cuadros estáticos. Estos cuadros sintéticos reemplazaron aproximadamente el 7.5% del conjunto de datos original y se integraron en los datos de entrenamiento de un modelo de red neuronal convolucional (CNN) disponible públicamente. Después de volver a entrenar el modelo con el conjunto de datos aumentado, la precisión no disminuyó. Además, la precisión de validación fue aproximadamente la misma. El modelo resultante alcanzó una precisión máxima del 98.04%. Si bien la ganancia de rendimiento fue limitada (menos del 1%), el enfoque ilustra la viabilidad de utilizar herramientas de GenAI para generar datos de entrenamiento y apoya la investigación adicional en la augmentación de datos para tareas de SLR de bajos recursos.