logo móvil
Contáctanos

Manejo Efectivo de Valores Faltantes en Conjuntos de Datos para Clasificación Utilizando Métodos de Aprendizaje Automático

Autores: Palanivinayagam, Ashokkumar; Damaeviius, Robertas

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Manejo Efectivo de Valores Faltantes en Conjuntos de Datos para Clasificación Utilizando Métodos de Aprendizaje Automático


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Valores faltantes
Máquina de soporte vectorial
Precisión de clasificación
Proceso de clasificación de dos niveles
Clasificación de diabetes
Modelos de aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La existencia de valores faltantes reduce la cantidad de conocimiento adquirido por los modelos de aprendizaje automático en la etapa de entrenamiento, afectando negativamente la precisión de la clasificación. Para abordar este desafío, introducimos el uso de la regresión de Máquinas de Vectores de Soporte (SVM) para imputar los valores faltantes. Además, proponemos un proceso de clasificación de dos niveles para reducir el número de clasificaciones erróneas. Nuestra evaluación del método propuesto se llevó a cabo utilizando el conjunto de datos PIMA Indian para la clasificación de diabetes. Comparamos el rendimiento de cinco modelos diferentes de aprendizaje automático: Naive Bayes (NB), Máquinas de Vectores de Soporte (SVM), k-Vecinos más Cercanos (KNN), Bosque Aleatorio (RF) y Regresión Lineal (LR). Los resultados de nuestros experimentos muestran que el clasificador SVM logró la mayor precisión con un 94.89%. El clasificador RF tuvo la mayor precisión (98.80%) y el clasificador SVM tuvo la mayor recuperación (85.48%). El modelo NB tuvo la mayor puntuación F1 (95.59%). Nuestro método propuesto proporciona una solución prometedora para detectar la diabetes en una etapa temprana al abordar el problema de los valores faltantes en el conjunto de datos. Nuestros resultados muestran que el uso de la regresión SVM y un proceso de clasificación de dos niveles pueden mejorar notablemente el rendimiento de los modelos de aprendizaje automático para la clasificación de diabetes. Este trabajo proporciona una valiosa contribución al campo de la investigación sobre la diabetes y destaca la importancia de abordar los valores faltantes en las aplicaciones de aprendizaje automático.

Otros recursos que podrían interesarte

Temas Virtualpro