Mejora del algoritmo ID3 basada en la entropía de información simplificada y el grado de coordinación
Autores: Wang, Yingying; Li, Yibin; Song, Yong; Rong, Xuewen; Zhang, Shuaishuai
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Mejora del algoritmo ID3 basada en la entropía de información simplificada y el grado de coordinación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Algoritmo de árbol de decisión
Minería de clasificación de datos
Algoritmo ID3
Sesgo de atributos de múltiples valores
Entropía de información
Teoría de conjuntos aproximados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 46
Citaciones: Sin citaciones
El algoritmo del árbol de decisiones es una tecnología central en la minería de clasificación de datos, y el algoritmo ID3 (Iterative Dichotomiser 3) es uno famoso, que ha logrado buenos resultados en el campo de la minería de clasificación. Sin embargo, existen algunas desventajas del ID3 como el sesgo de atributos de múltiples valores, alta complejidad, grandes escalas, etc. En este documento, se propone un algoritmo ID3 mejorado que combina la entropía de información simplificada basada en diferentes pesos con el grado de coordinación en la teoría de conjuntos aproximados. El algoritmo ID3 tradicional y el propuesto se comparan de manera justa utilizando tres muestras de datos comunes, así como los clasificadores de árboles de decisión. Se muestra que el algoritmo propuesto tiene un mejor rendimiento en el tiempo de ejecución y la estructura del árbol, pero no en precisión que el algoritmo ID3, para los dos primeros conjuntos de muestras, que son pequeños. Para el tercer conjunto de muestras que es grande, el algoritmo propuesto mejora al algoritmo ID3 en todos los aspectos del tiempo de ejecución, la estructura del árbol y la precisión. Los resultados experimentales muestran que el algoritmo propuesto es efectivo y viable.
Descripción
El algoritmo del árbol de decisiones es una tecnología central en la minería de clasificación de datos, y el algoritmo ID3 (Iterative Dichotomiser 3) es uno famoso, que ha logrado buenos resultados en el campo de la minería de clasificación. Sin embargo, existen algunas desventajas del ID3 como el sesgo de atributos de múltiples valores, alta complejidad, grandes escalas, etc. En este documento, se propone un algoritmo ID3 mejorado que combina la entropía de información simplificada basada en diferentes pesos con el grado de coordinación en la teoría de conjuntos aproximados. El algoritmo ID3 tradicional y el propuesto se comparan de manera justa utilizando tres muestras de datos comunes, así como los clasificadores de árboles de decisión. Se muestra que el algoritmo propuesto tiene un mejor rendimiento en el tiempo de ejecución y la estructura del árbol, pero no en precisión que el algoritmo ID3, para los dos primeros conjuntos de muestras, que son pequeños. Para el tercer conjunto de muestras que es grande, el algoritmo propuesto mejora al algoritmo ID3 en todos los aspectos del tiempo de ejecución, la estructura del árbol y la precisión. Los resultados experimentales muestran que el algoritmo propuesto es efectivo y viable.