sCwc/sLcc: Algoritmos de Selección de Características Altamente Escalables
Autores: Shin, Kilho; Kuboyama, Tetsuji; Hashimoto, Takako; Shepard, Dave
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
sCwc/sLcc: Algoritmos de Selección de Características Altamente Escalables
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Selección de características
Conjunto de datos
Algoritmos de aprendizaje
Datos de alta dimensión
SCwc
SLcc
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La selección de características es una herramienta útil para identificar qué características, o atributos, de un conjunto de datos causan o explican los fenómenos que describe el conjunto de datos, y para mejorar la eficiencia y precisión de los algoritmos de aprendizaje para descubrir tales fenómenos. En consecuencia, la selección de características ha sido estudiada intensamente en la investigación de aprendizaje automático. Sin embargo, aunque se han desarrollado algoritmos de selección de características que exhiben una excelente precisión, rara vez se utilizan para el análisis de datos de alta dimensión porque los datos de alta dimensión suelen incluir demasiadas instancias y características, lo que hace que los algoritmos de selección de características tradicionales sean ineficientes. Para eliminar esta limitación, intentamos mejorar el rendimiento en tiempo de ejecución de dos de los algoritmos de selección de características más precisos conocidos en la literatura. El resultado son dos algoritmos precisos y rápidos, a saber, sCwc y sLcc. Múltiples experimentos con conjuntos de datos reales de redes sociales han demostrado que nuestros algoritmos mejoran notablemente el rendimiento de sus algoritmos originales. Por ejemplo, tenemos dos conjuntos de datos, uno con 15,568 instancias y 15,741 características, y otro con 200,569 instancias y 99,672 características. sCwc realizó la selección de características en estos conjuntos de datos en 1.4 segundos y en 405 segundos, respectivamente. Además, sLcc ha resultado ser tan rápido como sCwc en promedio. Esta es una mejora notable porque se estima que los algoritmos originales necesitarían varias horas a decenas de días para procesar los mismos conjuntos de datos. Además, introducimos una implementación rápida de nuestros algoritmos: sCwc no requiere ningún parámetro de ajuste, mientras que sLcc requiere un parámetro de umbral, que podemos usar para controlar el número de características que selecciona el algoritmo.
Descripción
La selección de características es una herramienta útil para identificar qué características, o atributos, de un conjunto de datos causan o explican los fenómenos que describe el conjunto de datos, y para mejorar la eficiencia y precisión de los algoritmos de aprendizaje para descubrir tales fenómenos. En consecuencia, la selección de características ha sido estudiada intensamente en la investigación de aprendizaje automático. Sin embargo, aunque se han desarrollado algoritmos de selección de características que exhiben una excelente precisión, rara vez se utilizan para el análisis de datos de alta dimensión porque los datos de alta dimensión suelen incluir demasiadas instancias y características, lo que hace que los algoritmos de selección de características tradicionales sean ineficientes. Para eliminar esta limitación, intentamos mejorar el rendimiento en tiempo de ejecución de dos de los algoritmos de selección de características más precisos conocidos en la literatura. El resultado son dos algoritmos precisos y rápidos, a saber, sCwc y sLcc. Múltiples experimentos con conjuntos de datos reales de redes sociales han demostrado que nuestros algoritmos mejoran notablemente el rendimiento de sus algoritmos originales. Por ejemplo, tenemos dos conjuntos de datos, uno con 15,568 instancias y 15,741 características, y otro con 200,569 instancias y 99,672 características. sCwc realizó la selección de características en estos conjuntos de datos en 1.4 segundos y en 405 segundos, respectivamente. Además, sLcc ha resultado ser tan rápido como sCwc en promedio. Esta es una mejora notable porque se estima que los algoritmos originales necesitarían varias horas a decenas de días para procesar los mismos conjuntos de datos. Además, introducimos una implementación rápida de nuestros algoritmos: sCwc no requiere ningún parámetro de ajuste, mientras que sLcc requiere un parámetro de umbral, que podemos usar para controlar el número de características que selecciona el algoritmo.