Aprendiendo de Conjuntos de Datos de Alta Dimensionalidad y Desbalanceados en Clases Usando Bosques Aleatorios

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendiendo de Conjuntos de Datos de Alta Dimensionalidad y Desbalanceados en Clases Usando Bosques Aleatorios

Autores: Pes, Barbara

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Aprendiendo de Conjuntos de Datos de Alta Dimensionalidad y Desbalanceados en Clases Usando Bosques Aleatorios

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desbalance de clases

Alta dimensionalidad

Aprendizaje automático

Técnicas de selección de características

Balanceo de datos

Bosque Aleatorio

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El desequilibrio de clases y la alta dimensionalidad son dos problemas importantes en varias aplicaciones de la vida real, por ejemplo, en los campos de la bioinformática, la minería de textos y la clasificación de imágenes. Sin embargo, aunque ambos problemas han sido estudiados extensamente en la comunidad de aprendizaje automático, se han tratado principalmente por separado, y hasta ahora se ha realizado poca investigación sobre qué enfoques podrían ser los más adecuados para tratar conjuntos de datos que son desequilibrados en clases y de alta dimensión al mismo tiempo (es decir, con un gran número de características). Este trabajo intenta contribuir a esta desafiante área de investigación al estudiar la efectividad de estrategias de aprendizaje híbridas que implican la integración de técnicas de selección de características, para reducir la dimensionalidad de los datos, con métodos adecuados que abordan los efectos adversos del desequilibrio de clases (en particular, se consideran métodos de balanceo de datos y métodos sensibles al costo). Se han llevado a cabo experimentos extensivos en conjuntos de datos de diferentes dominios, aprovechando un clasificador bien conocido, el Random Forest, que ha demostrado ser efectivo en espacios de alta dimensión y también se ha aplicado con éxito a tareas desequilibradas. Nuestros resultados evidencian los beneficios de tal enfoque híbrido, en comparación con el uso solo de métodos de selección de características o de aprendizaje de desequilibrio por separado.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro