logo móvil
Contáctanos

Análisis de datos de COVID-19: el impacto de la imputación de datos faltantes en el rendimiento del modelo de aprendizaje supervisado

Autores: Mello-Román, Jorge Daniel; Martínez-Amarilla, Adrián

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Análisis de datos de COVID-19: el impacto de la imputación de datos faltantes en el rendimiento del modelo de aprendizaje supervisado


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Pandemia de covid-19
Aprendizaje automático
Modelos de aprendizaje supervisado
Métodos de imputación
Rendimiento del modelo
Métodos de conjunto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
La pandemia global de COVID-19 ha generado extensos conjuntos de datos, brindando oportunidades para aplicar aprendizaje automático con fines diagnósticos. Este estudio evalúa el rendimiento de cinco modelos de aprendizaje supervisado - Bosques Aleatorios (RF), Redes Neuronales Artificiales (ANNs), Máquinas de Vectores de Soporte (SVMs), Regresión Logística (LR) y Árboles de Decisión (DTs) - en un conjunto de datos basado en un hospital del Departamento de Concepción en Paraguay. Para abordar datos faltantes, se probaron cuatro métodos de imputación (Emparejamiento de Media Predictiva a través de MICE, imputación basada en RF, Vecino más Cercano, e imputación basada en XGBoost). El rendimiento del modelo se comparó utilizando métricas como precisión, AUC, puntuación F1 y MCC en cinco niveles de datos faltantes. En general, RF logró consistentemente alta precisión y AUC en el nivel más alto de datos faltantes, subrayando su robustez. En contraste, SVM a menudo mostraba un equilibrio entre especificidad y sensibilidad. ANN y DT mostraron una resistencia moderada, pero fueron más propensos a cambios de rendimiento bajo ciertos enfoques de imputación. Estos hallazgos resaltan la adaptabilidad de RF a diferentes estrategias de imputación, así como la importancia de seleccionar métodos que minimicen los equilibrios entre sensibilidad y especificidad. Al comparar múltiples técnicas de imputación y modelos supervisados, este estudio proporciona ideas prácticas para manejar datos médicos faltantes en entornos con recursos limitados y destaca el valor de los métodos de conjunto robustos para diagnósticos confiables de COVID-19.

Otros recursos que podrían interesarte

Temas Virtualpro