logo móvil
Contáctanos

Aprendiendo de Conjuntos de Datos de Alta Dimensionalidad y Desbalanceados en Clases Usando Bosques Aleatorios

Autores: Pes, Barbara

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Aprendiendo de Conjuntos de Datos de Alta Dimensionalidad y Desbalanceados en Clases Usando Bosques Aleatorios


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desbalance de clases
Alta dimensionalidad
Aprendizaje automático
Técnicas de selección de características
Balanceo de datos
Bosque Aleatorio

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El desequilibrio de clases y la alta dimensionalidad son dos problemas importantes en varias aplicaciones de la vida real, por ejemplo, en los campos de la bioinformática, la minería de textos y la clasificación de imágenes. Sin embargo, aunque ambos problemas han sido estudiados extensamente en la comunidad de aprendizaje automático, se han tratado principalmente por separado, y hasta ahora se ha realizado poca investigación sobre qué enfoques podrían ser los más adecuados para tratar conjuntos de datos que son desequilibrados en clases y de alta dimensión al mismo tiempo (es decir, con un gran número de características). Este trabajo intenta contribuir a esta desafiante área de investigación al estudiar la efectividad de estrategias de aprendizaje híbridas que implican la integración de técnicas de selección de características, para reducir la dimensionalidad de los datos, con métodos adecuados que abordan los efectos adversos del desequilibrio de clases (en particular, se consideran métodos de balanceo de datos y métodos sensibles al costo). Se han llevado a cabo experimentos extensivos en conjuntos de datos de diferentes dominios, aprovechando un clasificador bien conocido, el Random Forest, que ha demostrado ser efectivo en espacios de alta dimensión y también se ha aplicado con éxito a tareas desequilibradas. Nuestros resultados evidencian los beneficios de tal enfoque híbrido, en comparación con el uso solo de métodos de selección de características o de aprendizaje de desequilibrio por separado.

Otros recursos que podrían interesarte

Temas Virtualpro