Aprendiendo de Conjuntos de Datos de Alta Dimensionalidad y Desbalanceados en Clases Usando Bosques Aleatorios
Autores: Pes, Barbara
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Aprendiendo de Conjuntos de Datos de Alta Dimensionalidad y Desbalanceados en Clases Usando Bosques Aleatorios
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desbalance de clases
Alta dimensionalidad
Aprendizaje automático
Técnicas de selección de características
Balanceo de datos
Bosque Aleatorio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El desequilibrio de clases y la alta dimensionalidad son dos problemas importantes en varias aplicaciones de la vida real, por ejemplo, en los campos de la bioinformática, la minería de textos y la clasificación de imágenes. Sin embargo, aunque ambos problemas han sido estudiados extensamente en la comunidad de aprendizaje automático, se han tratado principalmente por separado, y hasta ahora se ha realizado poca investigación sobre qué enfoques podrían ser los más adecuados para tratar conjuntos de datos que son desequilibrados en clases y de alta dimensión al mismo tiempo (es decir, con un gran número de características). Este trabajo intenta contribuir a esta desafiante área de investigación al estudiar la efectividad de estrategias de aprendizaje híbridas que implican la integración de técnicas de selección de características, para reducir la dimensionalidad de los datos, con métodos adecuados que abordan los efectos adversos del desequilibrio de clases (en particular, se consideran métodos de balanceo de datos y métodos sensibles al costo). Se han llevado a cabo experimentos extensivos en conjuntos de datos de diferentes dominios, aprovechando un clasificador bien conocido, el Random Forest, que ha demostrado ser efectivo en espacios de alta dimensión y también se ha aplicado con éxito a tareas desequilibradas. Nuestros resultados evidencian los beneficios de tal enfoque híbrido, en comparación con el uso solo de métodos de selección de características o de aprendizaje de desequilibrio por separado.
Descripción
El desequilibrio de clases y la alta dimensionalidad son dos problemas importantes en varias aplicaciones de la vida real, por ejemplo, en los campos de la bioinformática, la minería de textos y la clasificación de imágenes. Sin embargo, aunque ambos problemas han sido estudiados extensamente en la comunidad de aprendizaje automático, se han tratado principalmente por separado, y hasta ahora se ha realizado poca investigación sobre qué enfoques podrían ser los más adecuados para tratar conjuntos de datos que son desequilibrados en clases y de alta dimensión al mismo tiempo (es decir, con un gran número de características). Este trabajo intenta contribuir a esta desafiante área de investigación al estudiar la efectividad de estrategias de aprendizaje híbridas que implican la integración de técnicas de selección de características, para reducir la dimensionalidad de los datos, con métodos adecuados que abordan los efectos adversos del desequilibrio de clases (en particular, se consideran métodos de balanceo de datos y métodos sensibles al costo). Se han llevado a cabo experimentos extensivos en conjuntos de datos de diferentes dominios, aprovechando un clasificador bien conocido, el Random Forest, que ha demostrado ser efectivo en espacios de alta dimensión y también se ha aplicado con éxito a tareas desequilibradas. Nuestros resultados evidencian los beneficios de tal enfoque híbrido, en comparación con el uso solo de métodos de selección de características o de aprendizaje de desequilibrio por separado.