logo móvil
Contáctanos

Explorando la Aumento de Conjuntos de Datos de Lengua de Señas con Videos de Inteligencia Artificial Generativa: Un Estudio de Caso Usando Datos de Lengua de Señas Americana Generados por Adobe Firefly

Autores: Bercaru, Valentin; Popescu, Nirvana

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Explorando la Aumento de Conjuntos de Datos de Lengua de Señas con Videos de Inteligencia Artificial Generativa: Un Estudio de Caso Usando Datos de Lengua de Señas Americana Generados por Adobe Firefly


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Reconocimiento de lenguaje de señas
Conjuntos de datos
Inteligencia artificial generativa
Lenguaje de señas americano
Red neuronal convolucional
Aumento de datos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Actualmente, los conjuntos de datos de alta calidad centrados en el reconocimiento de lenguaje de señas son privados, propietarios o difíciles de obtener debido a los costos. Por lo tanto, nuestro objetivo es mitigar este problema aumentando un conjunto de datos disponible públicamente con datos generados artificialmente para enriquecer y obtener un conjunto de datos más diverso. El rendimiento de los sistemas de reconocimiento de lenguaje de señas (SLR) depende en gran medida de la calidad y diversidad de los conjuntos de datos de entrenamiento. Sin embargo, adquirir datos de video de lenguaje de señas a gran escala y bien anotados sigue siendo un desafío significativo. Este experimento explora el uso de la inteligencia artificial generativa (GenAI), específicamente Adobe Firefly, para crear datos de video sintético para el deletreo en lenguaje de señas americano (ASL). Se seleccionaron trece letras de 26 para la generación, y se sintetizaron y procesaron videos cortos que representan cada signo en cuadros estáticos. Estos cuadros sintéticos reemplazaron aproximadamente el 7.5% del conjunto de datos original y se integraron en los datos de entrenamiento de un modelo de red neuronal convolucional (CNN) disponible públicamente. Después de volver a entrenar el modelo con el conjunto de datos aumentado, la precisión no disminuyó. Además, la precisión de validación fue aproximadamente la misma. El modelo resultante alcanzó una precisión máxima del 98.04%. Si bien la ganancia de rendimiento fue limitada (menos del 1%), el enfoque ilustra la viabilidad de utilizar herramientas de GenAI para generar datos de entrenamiento y apoya la investigación adicional en la augmentación de datos para tareas de SLR de bajos recursos.

Otros recursos que podrían interesarte

Temas Virtualpro