Iterative aplicación de algoritmos basados en UMAP para la generación de datos tabulares de atención médica completamente sintéticos
Autores: Lázaro, Carla; Angulo, Cecilio
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Iterative aplicación de algoritmos basados en UMAP para la generación de datos tabulares de atención médica completamente sintéticos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Algoritmo de generación de datos sintéticos desarrollado
Datos de atención médica
UMAP
Reducción de dimensionalidad
Modelo de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
Construyendo sobre un algoritmo de generación de datos sintéticos parcialmente desarrollado previamente utilizando técnicas de visualización de datos, este estudio extiende el algoritmo novedoso para generar datos de atención médica tabulares completamente sintéticos. En esta forma mejorada, el algoritmo sirve como una alternativa a los métodos convencionales basados en Redes Generativas Antagónicas (GANs) o Autoencoders Variacionales (VAEs). Al aplicar iterativamente la metodología original, el algoritmo adaptado emplea UMAP (Aproximación y Proyección del Manifold Uniforme), una técnica de reducción de dimensionalidad, para validar muestras generadas a través de agrupamientos de baja dimensionalidad. Este enfoque ha sido aplicado con éxito a tres dominios de atención médica: cáncer de próstata, cáncer de mama y enfermedad cardiovascular. Los datos sintéticos generados han sido rigurosamente evaluados en cuanto a fidelidad y utilidad. Los resultados muestran que el algoritmo basado en UMAP supera a los métodos de generación basados en GAN y VAE en diferentes escenarios. En evaluaciones de fidelidad, logró distancias máximas más pequeñas entre las funciones de distribución acumulativa de datos reales y sintéticos para diferentes atributos. En evaluaciones de utilidad, los conjuntos de datos sintéticos basados en UMAP mejoraron el rendimiento de modelos de aprendizaje automático, especialmente en tareas de clasificación. En conclusión, este método representa una solución robusta para generar datos de atención médica sintéticos seguros y de alta calidad, abordando eficazmente los desafíos de escasez de datos.
Descripción
Construyendo sobre un algoritmo de generación de datos sintéticos parcialmente desarrollado previamente utilizando técnicas de visualización de datos, este estudio extiende el algoritmo novedoso para generar datos de atención médica tabulares completamente sintéticos. En esta forma mejorada, el algoritmo sirve como una alternativa a los métodos convencionales basados en Redes Generativas Antagónicas (GANs) o Autoencoders Variacionales (VAEs). Al aplicar iterativamente la metodología original, el algoritmo adaptado emplea UMAP (Aproximación y Proyección del Manifold Uniforme), una técnica de reducción de dimensionalidad, para validar muestras generadas a través de agrupamientos de baja dimensionalidad. Este enfoque ha sido aplicado con éxito a tres dominios de atención médica: cáncer de próstata, cáncer de mama y enfermedad cardiovascular. Los datos sintéticos generados han sido rigurosamente evaluados en cuanto a fidelidad y utilidad. Los resultados muestran que el algoritmo basado en UMAP supera a los métodos de generación basados en GAN y VAE en diferentes escenarios. En evaluaciones de fidelidad, logró distancias máximas más pequeñas entre las funciones de distribución acumulativa de datos reales y sintéticos para diferentes atributos. En evaluaciones de utilidad, los conjuntos de datos sintéticos basados en UMAP mejoraron el rendimiento de modelos de aprendizaje automático, especialmente en tareas de clasificación. En conclusión, este método representa una solución robusta para generar datos de atención médica sintéticos seguros y de alta calidad, abordando eficazmente los desafíos de escasez de datos.