Utilizando el hashing sensible a la localidad para la clasificación SVM de conjuntos de datos grandes
Autores: Gonzalez-Lima, Maria D.; Ludeña, Carenne C.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Utilizando el hashing sensible a la localidad para la clasificación SVM de conjuntos de datos grandes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Proyecciones
Lsh
Máquinas de vectores de soporte
Problema de optimización
Espacio de características
Svm
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
Proponemos un método novedoso que utiliza el Hashing Sensible a la Localidad (LSH) para resolver el problema de optimización que surge en la etapa de entrenamiento de las máquinas de vectores de soporte para conjuntos de datos grandes, posiblemente en dimensiones altas. LSH se introdujo como una forma eficiente de buscar vecinos en espacios de alta dimensión. Las funciones LSH basadas en proyecciones aleatorias crean contenedores de manera que cuando puntos con una alta probabilidad pertenecen al mismo contenedor están cerca, los puntos que están lejos no estarán en el mismo contenedor. Basándonos en estos contenedores, no es necesario considerar todo el conjunto original, sino representantes en cada uno de ellos, reduciendo así el tamaño efectivo del conjunto de datos. Una clave de nuestra propuesta es que trabajamos con el espacio de características y solo utilizamos las proyecciones para buscar cercanía en este espacio. Además, en lugar de elegir las direcciones de proyección al azar, muestreamos un pequeño subconjunto y resolvemos el problema SVM asociado. Las proyecciones en esta dirección permiten una muestra más precisa en muchos casos y se encuentra una aproximación de la solución del problema grande en una fracción del tiempo de ejecución con una pequeña degradación del error de clasificación. Presentamos dos algoritmos, soporte teórico y experimentos numéricos que muestran su rendimiento en problemas de la vida real tomados de la base de datos LIBSVM.
Descripción
Proponemos un método novedoso que utiliza el Hashing Sensible a la Localidad (LSH) para resolver el problema de optimización que surge en la etapa de entrenamiento de las máquinas de vectores de soporte para conjuntos de datos grandes, posiblemente en dimensiones altas. LSH se introdujo como una forma eficiente de buscar vecinos en espacios de alta dimensión. Las funciones LSH basadas en proyecciones aleatorias crean contenedores de manera que cuando puntos con una alta probabilidad pertenecen al mismo contenedor están cerca, los puntos que están lejos no estarán en el mismo contenedor. Basándonos en estos contenedores, no es necesario considerar todo el conjunto original, sino representantes en cada uno de ellos, reduciendo así el tamaño efectivo del conjunto de datos. Una clave de nuestra propuesta es que trabajamos con el espacio de características y solo utilizamos las proyecciones para buscar cercanía en este espacio. Además, en lugar de elegir las direcciones de proyección al azar, muestreamos un pequeño subconjunto y resolvemos el problema SVM asociado. Las proyecciones en esta dirección permiten una muestra más precisa en muchos casos y se encuentra una aproximación de la solución del problema grande en una fracción del tiempo de ejecución con una pequeña degradación del error de clasificación. Presentamos dos algoritmos, soporte teórico y experimentos numéricos que muestran su rendimiento en problemas de la vida real tomados de la base de datos LIBSVM.