logo móvil
Contáctanos

Generación de Datos Sintéticos para Clasificación Binaria y Multiclase en el Dominio de la Salud

Autores: Guerreiro, Camila; Leal, Fátima; Pinho, Micaela

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Generación de Datos Sintéticos para Clasificación Binaria y Multiclase en el Dominio de la Salud


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Demanda
Soluciones basadas en datos
Atención médica
Generación de datos sintéticos
Preocupaciones sobre la privacidad
Aplicaciones de aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La creciente demanda de soluciones basadas en datos en el sector de la salud a menudo se ve obstaculizada por el acceso limitado a conjuntos de datos de alta calidad debido a preocupaciones de privacidad, desequilibrio de datos y restricciones regulatorias. La generación de datos sintéticos ha surgido como una estrategia prometedora para abordar estos desafíos al crear conjuntos de datos artificiales pero estadísticamente válidos que preservan los patrones subyacentes de los datos reales sin comprometer la confidencialidad del paciente. Este estudio explora metodologías para generar datos sintéticos adaptados a problemas de clasificación binaria y multiclase dentro del ámbito de la salud. Empleamos técnicas avanzadas como modelado probabilístico, redes generativas adversariales y estrategias de aumento de datos para replicar distribuciones de características realistas y relaciones de clases. Se realiza una evaluación integral utilizando conjuntos de datos de referencia en salud, midiendo la fidelidad, diversidad y utilidad de los datos sintéticos en tareas de modelado predictivo posteriores. El conjunto de datos original consistió en 2125 casos desequilibrados, tanto en escenarios de clasificación binaria como multiclase. Los resultados experimentales demuestran que los modelos entrenados con conjuntos de datos sintéticos logran niveles de rendimiento comparables a los entrenados con datos reales, particularmente en escenarios con un severo desequilibrio de clases. Los hallazgos subrayan el potencial de los datos sintéticos como un habilitador que preserva la privacidad para aplicaciones robustas de aprendizaje automático en el sector de la salud, facilitando la innovación mientras se adhieren a estrictas regulaciones de protección de datos.

Otros recursos que podrían interesarte

Temas Virtualpro