Manejo Efectivo de Valores Faltantes en Conjuntos de Datos para Clasificación Utilizando Métodos de Aprendizaje Automático
Autores: Palanivinayagam, Ashokkumar; Damaeviius, Robertas
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Manejo Efectivo de Valores Faltantes en Conjuntos de Datos para Clasificación Utilizando Métodos de Aprendizaje Automático
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Valores faltantes
Máquina de soporte vectorial
Precisión de clasificación
Proceso de clasificación de dos niveles
Clasificación de diabetes
Modelos de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La existencia de valores faltantes reduce la cantidad de conocimiento adquirido por los modelos de aprendizaje automático en la etapa de entrenamiento, afectando negativamente la precisión de la clasificación. Para abordar este desafío, introducimos el uso de la regresión de Máquinas de Vectores de Soporte (SVM) para imputar los valores faltantes. Además, proponemos un proceso de clasificación de dos niveles para reducir el número de clasificaciones erróneas. Nuestra evaluación del método propuesto se llevó a cabo utilizando el conjunto de datos PIMA Indian para la clasificación de diabetes. Comparamos el rendimiento de cinco modelos diferentes de aprendizaje automático: Naive Bayes (NB), Máquinas de Vectores de Soporte (SVM), k-Vecinos más Cercanos (KNN), Bosque Aleatorio (RF) y Regresión Lineal (LR). Los resultados de nuestros experimentos muestran que el clasificador SVM logró la mayor precisión con un 94.89%. El clasificador RF tuvo la mayor precisión (98.80%) y el clasificador SVM tuvo la mayor recuperación (85.48%). El modelo NB tuvo la mayor puntuación F1 (95.59%). Nuestro método propuesto proporciona una solución prometedora para detectar la diabetes en una etapa temprana al abordar el problema de los valores faltantes en el conjunto de datos. Nuestros resultados muestran que el uso de la regresión SVM y un proceso de clasificación de dos niveles pueden mejorar notablemente el rendimiento de los modelos de aprendizaje automático para la clasificación de diabetes. Este trabajo proporciona una valiosa contribución al campo de la investigación sobre la diabetes y destaca la importancia de abordar los valores faltantes en las aplicaciones de aprendizaje automático.
Descripción
La existencia de valores faltantes reduce la cantidad de conocimiento adquirido por los modelos de aprendizaje automático en la etapa de entrenamiento, afectando negativamente la precisión de la clasificación. Para abordar este desafío, introducimos el uso de la regresión de Máquinas de Vectores de Soporte (SVM) para imputar los valores faltantes. Además, proponemos un proceso de clasificación de dos niveles para reducir el número de clasificaciones erróneas. Nuestra evaluación del método propuesto se llevó a cabo utilizando el conjunto de datos PIMA Indian para la clasificación de diabetes. Comparamos el rendimiento de cinco modelos diferentes de aprendizaje automático: Naive Bayes (NB), Máquinas de Vectores de Soporte (SVM), k-Vecinos más Cercanos (KNN), Bosque Aleatorio (RF) y Regresión Lineal (LR). Los resultados de nuestros experimentos muestran que el clasificador SVM logró la mayor precisión con un 94.89%. El clasificador RF tuvo la mayor precisión (98.80%) y el clasificador SVM tuvo la mayor recuperación (85.48%). El modelo NB tuvo la mayor puntuación F1 (95.59%). Nuestro método propuesto proporciona una solución prometedora para detectar la diabetes en una etapa temprana al abordar el problema de los valores faltantes en el conjunto de datos. Nuestros resultados muestran que el uso de la regresión SVM y un proceso de clasificación de dos niveles pueden mejorar notablemente el rendimiento de los modelos de aprendizaje automático para la clasificación de diabetes. Este trabajo proporciona una valiosa contribución al campo de la investigación sobre la diabetes y destaca la importancia de abordar los valores faltantes en las aplicaciones de aprendizaje automático.