Un enfoque de normalización de datos de dos pasos para mejorar la precisión de clasificación en el dominio del diagnóstico médico
Autores: Izonin, Ivan; Tkachenko, Roman; Shakhovska, Nataliya; Ilchyshyn, Bohdan; Singh, Krishna Kant
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un enfoque de normalización de datos de dos pasos para mejorar la precisión de clasificación en el dominio del diagnóstico médico
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Normalización de datos
Preprocesamiento
Modelo de inteligencia artificial
Tareas de diagnóstico médico
Método de dos pasos
Métodos de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
La normalización de datos es una tarea de preprocesamiento de datos y una de las primeras en realizarse durante el análisis intelectual, especialmente en el caso de datos tabulares. La importancia de su implementación se determina por la necesidad de reducir la sensibilidad del modelo de inteligencia artificial a los valores de las características en el conjunto de datos para aumentar la adecuación del modelo estudiado. Este documento se centra en el problema de preprocesar datos de manera efectiva para mejorar la precisión del análisis intelectual en el caso de realizar tareas de diagnóstico médico. Hemos desarrollado un nuevo método de dos pasos para la normalización de datos de conjuntos de datos médicos numéricos. Se basa en la posibilidad de considerar tanto las interdependencias entre las características de cada observación del conjunto de datos como sus valores absolutos para mejorar la precisión al realizar tareas de minería de datos médicos. Describimos y justificamos cada paso de la implementación algorítmica del método. También visualizamos los resultados del método propuesto. El método propuesto se modeló utilizando seis métodos de aprendizaje automático diferentes basados en árboles de decisión al realizar tareas de clasificación binaria y multiclase. Utilizamos seis conjuntos de datos médicos del mundo real, disponibles de forma gratuita, con diferentes números de vectores, atributos y clases para llevar a cabo experimentos. Se realizó una comparación entre la efectividad del método desarrollado y la de cinco métodos de normalización de datos existentes. Se estableció experimentalmente que el método desarrollado aumenta la precisión del Árbol de Decisión y del Clasificador de Árboles Extra en un 1-5% en el caso de realizar la tarea de clasificación binaria y la precisión del Bagging, Árbol de Decisión y Clasificador de Árboles Extra en un 1-6% en el caso de realizar la tarea de clasificación multiclase. Aumentar la precisión de estos clasificadores solo mediante el uso del nuevo método de normalización de datos satisface todos los requisitos para su aplicación en la práctica al realizar diversas tareas de minería de datos médicos.
Descripción
La normalización de datos es una tarea de preprocesamiento de datos y una de las primeras en realizarse durante el análisis intelectual, especialmente en el caso de datos tabulares. La importancia de su implementación se determina por la necesidad de reducir la sensibilidad del modelo de inteligencia artificial a los valores de las características en el conjunto de datos para aumentar la adecuación del modelo estudiado. Este documento se centra en el problema de preprocesar datos de manera efectiva para mejorar la precisión del análisis intelectual en el caso de realizar tareas de diagnóstico médico. Hemos desarrollado un nuevo método de dos pasos para la normalización de datos de conjuntos de datos médicos numéricos. Se basa en la posibilidad de considerar tanto las interdependencias entre las características de cada observación del conjunto de datos como sus valores absolutos para mejorar la precisión al realizar tareas de minería de datos médicos. Describimos y justificamos cada paso de la implementación algorítmica del método. También visualizamos los resultados del método propuesto. El método propuesto se modeló utilizando seis métodos de aprendizaje automático diferentes basados en árboles de decisión al realizar tareas de clasificación binaria y multiclase. Utilizamos seis conjuntos de datos médicos del mundo real, disponibles de forma gratuita, con diferentes números de vectores, atributos y clases para llevar a cabo experimentos. Se realizó una comparación entre la efectividad del método desarrollado y la de cinco métodos de normalización de datos existentes. Se estableció experimentalmente que el método desarrollado aumenta la precisión del Árbol de Decisión y del Clasificador de Árboles Extra en un 1-5% en el caso de realizar la tarea de clasificación binaria y la precisión del Bagging, Árbol de Decisión y Clasificador de Árboles Extra en un 1-6% en el caso de realizar la tarea de clasificación multiclase. Aumentar la precisión de estos clasificadores solo mediante el uso del nuevo método de normalización de datos satisface todos los requisitos para su aplicación en la práctica al realizar diversas tareas de minería de datos médicos.