Análisis de datos de COVID-19: el impacto de la imputación de datos faltantes en el rendimiento del modelo de aprendizaje supervisado
Autores: Mello-Román, Jorge Daniel; Martínez-Amarilla, Adrián
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Análisis de datos de COVID-19: el impacto de la imputación de datos faltantes en el rendimiento del modelo de aprendizaje supervisado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Pandemia de covid-19
Aprendizaje automático
Modelos de aprendizaje supervisado
Métodos de imputación
Rendimiento del modelo
Métodos de conjunto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La pandemia global de COVID-19 ha generado extensos conjuntos de datos, brindando oportunidades para aplicar aprendizaje automático con fines diagnósticos. Este estudio evalúa el rendimiento de cinco modelos de aprendizaje supervisado - Bosques Aleatorios (RF), Redes Neuronales Artificiales (ANNs), Máquinas de Vectores de Soporte (SVMs), Regresión Logística (LR) y Árboles de Decisión (DTs) - en un conjunto de datos basado en un hospital del Departamento de Concepción en Paraguay. Para abordar datos faltantes, se probaron cuatro métodos de imputación (Emparejamiento de Media Predictiva a través de MICE, imputación basada en RF, Vecino más Cercano, e imputación basada en XGBoost). El rendimiento del modelo se comparó utilizando métricas como precisión, AUC, puntuación F1 y MCC en cinco niveles de datos faltantes. En general, RF logró consistentemente alta precisión y AUC en el nivel más alto de datos faltantes, subrayando su robustez. En contraste, SVM a menudo mostraba un equilibrio entre especificidad y sensibilidad. ANN y DT mostraron una resistencia moderada, pero fueron más propensos a cambios de rendimiento bajo ciertos enfoques de imputación. Estos hallazgos resaltan la adaptabilidad de RF a diferentes estrategias de imputación, así como la importancia de seleccionar métodos que minimicen los equilibrios entre sensibilidad y especificidad. Al comparar múltiples técnicas de imputación y modelos supervisados, este estudio proporciona ideas prácticas para manejar datos médicos faltantes en entornos con recursos limitados y destaca el valor de los métodos de conjunto robustos para diagnósticos confiables de COVID-19.
Descripción
La pandemia global de COVID-19 ha generado extensos conjuntos de datos, brindando oportunidades para aplicar aprendizaje automático con fines diagnósticos. Este estudio evalúa el rendimiento de cinco modelos de aprendizaje supervisado - Bosques Aleatorios (RF), Redes Neuronales Artificiales (ANNs), Máquinas de Vectores de Soporte (SVMs), Regresión Logística (LR) y Árboles de Decisión (DTs) - en un conjunto de datos basado en un hospital del Departamento de Concepción en Paraguay. Para abordar datos faltantes, se probaron cuatro métodos de imputación (Emparejamiento de Media Predictiva a través de MICE, imputación basada en RF, Vecino más Cercano, e imputación basada en XGBoost). El rendimiento del modelo se comparó utilizando métricas como precisión, AUC, puntuación F1 y MCC en cinco niveles de datos faltantes. En general, RF logró consistentemente alta precisión y AUC en el nivel más alto de datos faltantes, subrayando su robustez. En contraste, SVM a menudo mostraba un equilibrio entre especificidad y sensibilidad. ANN y DT mostraron una resistencia moderada, pero fueron más propensos a cambios de rendimiento bajo ciertos enfoques de imputación. Estos hallazgos resaltan la adaptabilidad de RF a diferentes estrategias de imputación, así como la importancia de seleccionar métodos que minimicen los equilibrios entre sensibilidad y especificidad. Al comparar múltiples técnicas de imputación y modelos supervisados, este estudio proporciona ideas prácticas para manejar datos médicos faltantes en entornos con recursos limitados y destaca el valor de los métodos de conjunto robustos para diagnósticos confiables de COVID-19.