Un método de estimación de límite de decisión basado en la línea del horizonte para la clasificación binomial en grandes datos
Autores: Kalyvas, Christos; Maragoudakis, Manolis
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un método de estimación de límite de decisión basado en la línea del horizonte para la clasificación binomial en grandes datos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Modelos de clasificación
Grandes volúmenes de datos
Consultas skyline
Límite de decisión
Vecino más cercano k
Máquinas de vectores de soporte
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Una de las tareas más comunes en entornos de big data en la actualidad es la necesidad de clasificar grandes cantidades de datos. Existen numerosos modelos de clasificación diseñados para funcionar mejor en diferentes entornos y conjuntos de datos, cada uno con sus ventajas y desventajas. Sin embargo, al tratar con big data, su rendimiento se ve significativamente degradado porque no están diseñados, ni siquiera son capaces, de manejar conjuntos de datos muy grandes. El enfoque actual se basa en una propuesta novedosa que explota la dinámica de las consultas de skyline para identificar eficientemente el límite de decisión y clasificar big data. Una comparación con los populares algoritmos de clasificación de vecinos más cercanos (k-NN), máquinas de vectores de soporte (SVM) y Bayes ingenuo muestra que el método propuesto es más rápido que el k-NN y el SVM. La novedad de este método se basa en el hecho de que solo se necesitan un pequeño número de cálculos para hacer una predicción, mientras que su máximo potencial se revela en conjuntos de datos muy grandes.
Descripción
Una de las tareas más comunes en entornos de big data en la actualidad es la necesidad de clasificar grandes cantidades de datos. Existen numerosos modelos de clasificación diseñados para funcionar mejor en diferentes entornos y conjuntos de datos, cada uno con sus ventajas y desventajas. Sin embargo, al tratar con big data, su rendimiento se ve significativamente degradado porque no están diseñados, ni siquiera son capaces, de manejar conjuntos de datos muy grandes. El enfoque actual se basa en una propuesta novedosa que explota la dinámica de las consultas de skyline para identificar eficientemente el límite de decisión y clasificar big data. Una comparación con los populares algoritmos de clasificación de vecinos más cercanos (k-NN), máquinas de vectores de soporte (SVM) y Bayes ingenuo muestra que el método propuesto es más rápido que el k-NN y el SVM. La novedad de este método se basa en el hecho de que solo se necesitan un pequeño número de cálculos para hacer una predicción, mientras que su máximo potencial se revela en conjuntos de datos muy grandes.