logo móvil
Contáctanos

sCwc/sLcc: Algoritmos de Selección de Características Altamente Escalables

Autores: Shin, Kilho; Kuboyama, Tetsuji; Hashimoto, Takako; Shepard, Dave

Idioma: Inglés

Editor: MDPI

Año: 2017

Descargar PDF

Acceso abierto

Artículo científico
2017

sCwc/sLcc: Algoritmos de Selección de Características Altamente Escalables


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Selección de características
Conjunto de datos
Algoritmos de aprendizaje
Datos de alta dimensión
SCwc
SLcc

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La selección de características es una herramienta útil para identificar qué características, o atributos, de un conjunto de datos causan o explican los fenómenos que describe el conjunto de datos, y para mejorar la eficiencia y precisión de los algoritmos de aprendizaje para descubrir tales fenómenos. En consecuencia, la selección de características ha sido estudiada intensamente en la investigación de aprendizaje automático. Sin embargo, aunque se han desarrollado algoritmos de selección de características que exhiben una excelente precisión, rara vez se utilizan para el análisis de datos de alta dimensión porque los datos de alta dimensión suelen incluir demasiadas instancias y características, lo que hace que los algoritmos de selección de características tradicionales sean ineficientes. Para eliminar esta limitación, intentamos mejorar el rendimiento en tiempo de ejecución de dos de los algoritmos de selección de características más precisos conocidos en la literatura. El resultado son dos algoritmos precisos y rápidos, a saber, sCwc y sLcc. Múltiples experimentos con conjuntos de datos reales de redes sociales han demostrado que nuestros algoritmos mejoran notablemente el rendimiento de sus algoritmos originales. Por ejemplo, tenemos dos conjuntos de datos, uno con 15,568 instancias y 15,741 características, y otro con 200,569 instancias y 99,672 características. sCwc realizó la selección de características en estos conjuntos de datos en 1.4 segundos y en 405 segundos, respectivamente. Además, sLcc ha resultado ser tan rápido como sCwc en promedio. Esta es una mejora notable porque se estima que los algoritmos originales necesitarían varias horas a decenas de días para procesar los mismos conjuntos de datos. Además, introducimos una implementación rápida de nuestros algoritmos: sCwc no requiere ningún parámetro de ajuste, mientras que sLcc requiere un parámetro de umbral, que podemos usar para controlar el número de características que selecciona el algoritmo.

Otros recursos que podrían interesarte

Temas Virtualpro