Un análisis sistemático de técnicas de generación de datos sintéticos utilizando inteligencia artificial generativa
Autores: Goyal, Mandeep; Mahmoud, Qusay H.
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un análisis sistemático de técnicas de generación de datos sintéticos utilizando inteligencia artificial generativa
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Escasez de datos
Preocupaciones sobre la privacidad
Sesgos algorítmicos
Datos sintéticos
Redes generativas adversarias
Autoencoders variacionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Los datos sintéticos están siendo cada vez más reconocidos por su potencial para abordar serios desafíos del mundo real en varios dominios. Ofrecen soluciones innovadoras para combatir la escasez de datos, las preocupaciones de privacidad y los sesgos algorítmicos comúnmente utilizados en aplicaciones de aprendizaje automático. Los datos sintéticos conservan todos los patrones y comportamientos subyacentes del conjunto de datos original mientras alteran el contenido real. Los métodos propuestos en la literatura para generar datos sintéticos varían desde grandes modelos de lenguaje (LLMs), que están pre-entrenados en conjuntos de datos gigantescos, hasta redes generativas adversariales (GANs) y autoencoders variacionales (VAEs). Este estudio proporciona una revisión sistemática de las diversas técnicas propuestas en la literatura que pueden ser utilizadas para generar datos sintéticos para identificar sus limitaciones y sugerir posibles áreas de investigación futura. Los hallazgos indican que si bien estas tecnologías generan datos sintéticos de tipos de datos específicos, aún tienen algunas desventajas, como requisitos computacionales, estabilidad de entrenamiento y medidas de preservación de la privacidad que limitan su usabilidad en el mundo real. Abordar estos problemas facilitará una mayor adopción de técnicas de generación de datos sintéticos en diversas disciplinas, avanzando así en soluciones de aprendizaje automático y basadas en datos.
Descripción
Los datos sintéticos están siendo cada vez más reconocidos por su potencial para abordar serios desafíos del mundo real en varios dominios. Ofrecen soluciones innovadoras para combatir la escasez de datos, las preocupaciones de privacidad y los sesgos algorítmicos comúnmente utilizados en aplicaciones de aprendizaje automático. Los datos sintéticos conservan todos los patrones y comportamientos subyacentes del conjunto de datos original mientras alteran el contenido real. Los métodos propuestos en la literatura para generar datos sintéticos varían desde grandes modelos de lenguaje (LLMs), que están pre-entrenados en conjuntos de datos gigantescos, hasta redes generativas adversariales (GANs) y autoencoders variacionales (VAEs). Este estudio proporciona una revisión sistemática de las diversas técnicas propuestas en la literatura que pueden ser utilizadas para generar datos sintéticos para identificar sus limitaciones y sugerir posibles áreas de investigación futura. Los hallazgos indican que si bien estas tecnologías generan datos sintéticos de tipos de datos específicos, aún tienen algunas desventajas, como requisitos computacionales, estabilidad de entrenamiento y medidas de preservación de la privacidad que limitan su usabilidad en el mundo real. Abordar estos problemas facilitará una mayor adopción de técnicas de generación de datos sintéticos en diversas disciplinas, avanzando así en soluciones de aprendizaje automático y basadas en datos.