Generación de Datos Sintéticos para Clasificación Binaria y Multiclase en el Dominio de la Salud
Autores: Guerreiro, Camila; Leal, Fátima; Pinho, Micaela
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Generación de Datos Sintéticos para Clasificación Binaria y Multiclase en el Dominio de la Salud
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Demanda
Soluciones basadas en datos
Atención médica
Generación de datos sintéticos
Preocupaciones sobre la privacidad
Aplicaciones de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La creciente demanda de soluciones basadas en datos en el sector de la salud a menudo se ve obstaculizada por el acceso limitado a conjuntos de datos de alta calidad debido a preocupaciones de privacidad, desequilibrio de datos y restricciones regulatorias. La generación de datos sintéticos ha surgido como una estrategia prometedora para abordar estos desafíos al crear conjuntos de datos artificiales pero estadísticamente válidos que preservan los patrones subyacentes de los datos reales sin comprometer la confidencialidad del paciente. Este estudio explora metodologías para generar datos sintéticos adaptados a problemas de clasificación binaria y multiclase dentro del ámbito de la salud. Empleamos técnicas avanzadas como modelado probabilístico, redes generativas adversariales y estrategias de aumento de datos para replicar distribuciones de características realistas y relaciones de clases. Se realiza una evaluación integral utilizando conjuntos de datos de referencia en salud, midiendo la fidelidad, diversidad y utilidad de los datos sintéticos en tareas de modelado predictivo posteriores. El conjunto de datos original consistió en 2125 casos desequilibrados, tanto en escenarios de clasificación binaria como multiclase. Los resultados experimentales demuestran que los modelos entrenados con conjuntos de datos sintéticos logran niveles de rendimiento comparables a los entrenados con datos reales, particularmente en escenarios con un severo desequilibrio de clases. Los hallazgos subrayan el potencial de los datos sintéticos como un habilitador que preserva la privacidad para aplicaciones robustas de aprendizaje automático en el sector de la salud, facilitando la innovación mientras se adhieren a estrictas regulaciones de protección de datos.
Descripción
La creciente demanda de soluciones basadas en datos en el sector de la salud a menudo se ve obstaculizada por el acceso limitado a conjuntos de datos de alta calidad debido a preocupaciones de privacidad, desequilibrio de datos y restricciones regulatorias. La generación de datos sintéticos ha surgido como una estrategia prometedora para abordar estos desafíos al crear conjuntos de datos artificiales pero estadísticamente válidos que preservan los patrones subyacentes de los datos reales sin comprometer la confidencialidad del paciente. Este estudio explora metodologías para generar datos sintéticos adaptados a problemas de clasificación binaria y multiclase dentro del ámbito de la salud. Empleamos técnicas avanzadas como modelado probabilístico, redes generativas adversariales y estrategias de aumento de datos para replicar distribuciones de características realistas y relaciones de clases. Se realiza una evaluación integral utilizando conjuntos de datos de referencia en salud, midiendo la fidelidad, diversidad y utilidad de los datos sintéticos en tareas de modelado predictivo posteriores. El conjunto de datos original consistió en 2125 casos desequilibrados, tanto en escenarios de clasificación binaria como multiclase. Los resultados experimentales demuestran que los modelos entrenados con conjuntos de datos sintéticos logran niveles de rendimiento comparables a los entrenados con datos reales, particularmente en escenarios con un severo desequilibrio de clases. Los hallazgos subrayan el potencial de los datos sintéticos como un habilitador que preserva la privacidad para aplicaciones robustas de aprendizaje automático en el sector de la salud, facilitando la innovación mientras se adhieren a estrictas regulaciones de protección de datos.