Una técnica de conjunto homogénea mejorada para la detección temprana y precisa de la diabetes mellitus tipo 2 (T2DM)
Autores: Faustin, Umuhire Mucyo; Zou, Beiji
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Una técnica de conjunto homogénea mejorada para la detección temprana y precisa de la diabetes mellitus tipo 2 (T2DM)
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Algoritmo genético
Selección de características
Rendimiento de clasificación
Alta dimensionalidad
Análisis de datos
Clasificador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
El objetivo del presente estudio es mejorar la supremacía del algoritmo genético (GA) en la selección de las características más adecuadas y relevantes dentro de un conjunto de datos altamente dimensional. Esto resulta en una reducción de costes y en la mejora del rendimiento de la clasificación. Durante la clasificación de texto, el uso de términos como características mediante la representación del espacio vectorial puede dar lugar a una alta dimensionalidad del espacio futuro. Esta condición presenta algunos problemas, incluido el alto costo computacional en el análisis de datos y el deterioro del rendimiento de precisión de la clasificación. Varias técnicas computacionales de selección de características pueden aplicarse para eliminar las características menos significativas dentro de un conjunto de datos, incluido un algoritmo genético. El presente estudio mejoró el rendimiento del clasificador en la clasificación de los datos de diabetes de los indios Pima. A pesar de la popularidad de GA en el área de selección de características, no proporciona las características más óptimas debido a uno de sus problemas subyacentes: la convergencia prematura debido a una diversidad poblacional insuficiente en las generaciones futuras. GA se mejoró en su operador de cruce mediante dos pasos: definir un punto de corte variable en el tamaño del gen a intercambiar para cada generación descendiente y aplicar puntuaciones de frecuencia de características para decidir el intercambio de genes. Los resultados obtenidos con la técnica propuesta serán mejores que los resultados para GA estándar. Nuestro algoritmo propuesto logró una precisión del 97,5%, una precisión del 98, una recuperación del 97% y una puntuación F1 del 97%.
Descripción
El objetivo del presente estudio es mejorar la supremacía del algoritmo genético (GA) en la selección de las características más adecuadas y relevantes dentro de un conjunto de datos altamente dimensional. Esto resulta en una reducción de costes y en la mejora del rendimiento de la clasificación. Durante la clasificación de texto, el uso de términos como características mediante la representación del espacio vectorial puede dar lugar a una alta dimensionalidad del espacio futuro. Esta condición presenta algunos problemas, incluido el alto costo computacional en el análisis de datos y el deterioro del rendimiento de precisión de la clasificación. Varias técnicas computacionales de selección de características pueden aplicarse para eliminar las características menos significativas dentro de un conjunto de datos, incluido un algoritmo genético. El presente estudio mejoró el rendimiento del clasificador en la clasificación de los datos de diabetes de los indios Pima. A pesar de la popularidad de GA en el área de selección de características, no proporciona las características más óptimas debido a uno de sus problemas subyacentes: la convergencia prematura debido a una diversidad poblacional insuficiente en las generaciones futuras. GA se mejoró en su operador de cruce mediante dos pasos: definir un punto de corte variable en el tamaño del gen a intercambiar para cada generación descendiente y aplicar puntuaciones de frecuencia de características para decidir el intercambio de genes. Los resultados obtenidos con la técnica propuesta serán mejores que los resultados para GA estándar. Nuestro algoritmo propuesto logró una precisión del 97,5%, una precisión del 98, una recuperación del 97% y una puntuación F1 del 97%.