Generación no paramétrica de datos sintéticos utilizando cópulas
Autores: Restrepo, Juan P.; Rivera, Juan Carlos; Laniado, Henry; Osorio, Pablo; Becerra, Omar A.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Generación no paramétrica de datos sintéticos utilizando cópulas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Enfoque novedoso
Datos sintéticos
Cópulas
Estructuras multivariadas
Modelos de aprendizaje automático
Modelos de aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
Este artículo presenta un enfoque no paramétrico novedoso para generar datos sintéticos utilizando cópulas, que son funciones que explican la estructura de dependencia de los datos reales. El método propuesto aborda varios desafíos enfrentados por las técnicas existentes de generación de datos sintéticos, como la preservación de estructuras multivariadas complejas presentes en los datos reales. Al utilizar toda la información de los datos reales y verificar que los datos sintéticos generados siguen el mismo comportamiento que los datos reales bajo pruebas de homogeneidad, nuestro método es una mejora significativa sobre las técnicas existentes. Nuestro método es fácil de implementar e interpretar, lo que lo convierte en una herramienta valiosa para resolver problemas de desequilibrio de clases en modelos de aprendizaje automático, mejorar las capacidades de generalización de modelos de aprendizaje profundo y anonimizar información en los dominios de finanzas y salud, entre otras aplicaciones.
Descripción
Este artículo presenta un enfoque no paramétrico novedoso para generar datos sintéticos utilizando cópulas, que son funciones que explican la estructura de dependencia de los datos reales. El método propuesto aborda varios desafíos enfrentados por las técnicas existentes de generación de datos sintéticos, como la preservación de estructuras multivariadas complejas presentes en los datos reales. Al utilizar toda la información de los datos reales y verificar que los datos sintéticos generados siguen el mismo comportamiento que los datos reales bajo pruebas de homogeneidad, nuestro método es una mejora significativa sobre las técnicas existentes. Nuestro método es fácil de implementar e interpretar, lo que lo convierte en una herramienta valiosa para resolver problemas de desequilibrio de clases en modelos de aprendizaje automático, mejorar las capacidades de generalización de modelos de aprendizaje profundo y anonimizar información en los dominios de finanzas y salud, entre otras aplicaciones.