logo móvil
Contáctanos

Iterative aplicación de algoritmos basados en UMAP para la generación de datos tabulares de atención médica completamente sintéticos

Autores: Lázaro, Carla; Angulo, Cecilio

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Iterative aplicación de algoritmos basados en UMAP para la generación de datos tabulares de atención médica completamente sintéticos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Algoritmo de generación de datos sintéticos desarrollado
Datos de atención médica
UMAP
Reducción de dimensionalidad
Modelo de aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones


Descripción
Construyendo sobre un algoritmo de generación de datos sintéticos parcialmente desarrollado previamente utilizando técnicas de visualización de datos, este estudio extiende el algoritmo novedoso para generar datos de atención médica tabulares completamente sintéticos. En esta forma mejorada, el algoritmo sirve como una alternativa a los métodos convencionales basados en Redes Generativas Antagónicas (GANs) o Autoencoders Variacionales (VAEs). Al aplicar iterativamente la metodología original, el algoritmo adaptado emplea UMAP (Aproximación y Proyección del Manifold Uniforme), una técnica de reducción de dimensionalidad, para validar muestras generadas a través de agrupamientos de baja dimensionalidad. Este enfoque ha sido aplicado con éxito a tres dominios de atención médica: cáncer de próstata, cáncer de mama y enfermedad cardiovascular. Los datos sintéticos generados han sido rigurosamente evaluados en cuanto a fidelidad y utilidad. Los resultados muestran que el algoritmo basado en UMAP supera a los métodos de generación basados en GAN y VAE en diferentes escenarios. En evaluaciones de fidelidad, logró distancias máximas más pequeñas entre las funciones de distribución acumulativa de datos reales y sintéticos para diferentes atributos. En evaluaciones de utilidad, los conjuntos de datos sintéticos basados en UMAP mejoraron el rendimiento de modelos de aprendizaje automático, especialmente en tareas de clasificación. En conclusión, este método representa una solución robusta para generar datos de atención médica sintéticos seguros y de alta calidad, abordando eficazmente los desafíos de escasez de datos.

Otros recursos que podrían interesarte

Temas Virtualpro