Deterministic coreset para -means de grandes datos dispersos
Autores: Barger, Artem; Feldman, Dan
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Deterministic coreset para -means de grandes datos dispersos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Conjunto
Puntos
Centros
Núcleo central
Suma ponderada
Agrupamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Sea un conjunto de puntos en , sea un número entero y sea una constante. Un es un subconjunto con pesos no negativos apropiados (escalares), que aproxima un conjunto dado de centros. Es decir, la suma de las distancias al cuadrado sobre cada punto en a su punto más cercano en es la misma, hasta un factor de la suma ponderada de a los mismos centros. Si el coreset es pequeño, podemos resolver problemas como el agrupamiento -medias o sus variantes (por ejemplo, -medias discretas, donde los centros están restringidos a estar en , u otras zonas restringidas) en el pequeño coreset para obtener aproximaciones probables más rápidas. Además, se sabe que tales coreset admiten datos en streaming, dinámicos y distribuidos utilizando los árboles clásicos de fusión-reducción. El hecho de que el coreset sea un subconjunto implica que preserva la dispersión de los datos. Sin embargo, los coreset existentes son aleatorios y su tamaño tiene al menos una dependencia lineal en la dimensión . Sugerimos el primer coreset de tamaño de . Esta es también la primera construcción de coreset determinista cuyo tamaño resultante no es exponencial en . Se proporcionan extensos resultados experimentales y comparativos en conjuntos de datos públicos, incluido el primer coreset de la Wikipedia en inglés utilizando la nube de Amazon.
Descripción
Sea un conjunto de puntos en , sea un número entero y sea una constante. Un es un subconjunto con pesos no negativos apropiados (escalares), que aproxima un conjunto dado de centros. Es decir, la suma de las distancias al cuadrado sobre cada punto en a su punto más cercano en es la misma, hasta un factor de la suma ponderada de a los mismos centros. Si el coreset es pequeño, podemos resolver problemas como el agrupamiento -medias o sus variantes (por ejemplo, -medias discretas, donde los centros están restringidos a estar en , u otras zonas restringidas) en el pequeño coreset para obtener aproximaciones probables más rápidas. Además, se sabe que tales coreset admiten datos en streaming, dinámicos y distribuidos utilizando los árboles clásicos de fusión-reducción. El hecho de que el coreset sea un subconjunto implica que preserva la dispersión de los datos. Sin embargo, los coreset existentes son aleatorios y su tamaño tiene al menos una dependencia lineal en la dimensión . Sugerimos el primer coreset de tamaño de . Esta es también la primera construcción de coreset determinista cuyo tamaño resultante no es exponencial en . Se proporcionan extensos resultados experimentales y comparativos en conjuntos de datos públicos, incluido el primer coreset de la Wikipedia en inglés utilizando la nube de Amazon.