Sobre procedimientos de submuestreo para máquinas de vectores de soporte
Autores: Bárcenas, Roberto; Gonzalez-Lima, Maria; Ortega, Joaquin; Quiroz, Adolfo
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Sobre procedimientos de submuestreo para máquinas de vectores de soporte
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Resultados teóricos
Métodos de submuestreo
Máquinas de vectores de soporte
Escenarios de grandes datos
Maldición de la dimensionalidad
Muestreo de importancia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Aquí se presentan resultados teóricos para proporcionar información sobre la efectividad de los métodos de submuestreo en la reducción de la cantidad de instancias requeridas en la etapa de entrenamiento al aplicar máquinas de vectores de soporte (SVM) para clasificación en escenarios de grandes datos. Nuestro teorema principal establece que bajo ciertas condiciones, existe, con alta probabilidad, una solución factible al problema de SVM para una submuestra de entrenamiento elegida al azar, con el clasificador correspondiente tan cercano como se desee (en términos de error de clasificación) al clasificador obtenido del entrenamiento con el conjunto de datos completo. El teorema principal también refleja la maldición de la dimensionalidad en que las suposiciones hechas para los resultados son mucho más restrictivas en dimensiones grandes; por lo tanto, los métodos de submuestreo funcionarán mejor en dimensiones más bajas. Además, proponemos un método de submuestreo de muestreo de importancia y de agrupación que amplía las ideas de vecinos más cercanos presentadas en trabajos anteriores. Utilizando diferentes ejemplos de referencia, el método propuesto aquí presenta una solución más rápida al problema de SVM (sin una pérdida significativa en precisión) en comparación con las técnicas disponibles de vanguardia.
Descripción
Aquí se presentan resultados teóricos para proporcionar información sobre la efectividad de los métodos de submuestreo en la reducción de la cantidad de instancias requeridas en la etapa de entrenamiento al aplicar máquinas de vectores de soporte (SVM) para clasificación en escenarios de grandes datos. Nuestro teorema principal establece que bajo ciertas condiciones, existe, con alta probabilidad, una solución factible al problema de SVM para una submuestra de entrenamiento elegida al azar, con el clasificador correspondiente tan cercano como se desee (en términos de error de clasificación) al clasificador obtenido del entrenamiento con el conjunto de datos completo. El teorema principal también refleja la maldición de la dimensionalidad en que las suposiciones hechas para los resultados son mucho más restrictivas en dimensiones grandes; por lo tanto, los métodos de submuestreo funcionarán mejor en dimensiones más bajas. Además, proponemos un método de submuestreo de muestreo de importancia y de agrupación que amplía las ideas de vecinos más cercanos presentadas en trabajos anteriores. Utilizando diferentes ejemplos de referencia, el método propuesto aquí presenta una solución más rápida al problema de SVM (sin una pérdida significativa en precisión) en comparación con las técnicas disponibles de vanguardia.