logo móvil
Contáctanos

Deterministic coreset para -means de grandes datos dispersos

Autores: Barger, Artem; Feldman, Dan

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Deterministic coreset para -means de grandes datos dispersos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Conjunto
Puntos
Centros
Núcleo central
Suma ponderada
Agrupamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones


Descripción
Sea un conjunto de puntos en , sea un número entero y sea una constante. Un es un subconjunto con pesos no negativos apropiados (escalares), que aproxima un conjunto dado de centros. Es decir, la suma de las distancias al cuadrado sobre cada punto en a su punto más cercano en es la misma, hasta un factor de la suma ponderada de a los mismos centros. Si el coreset es pequeño, podemos resolver problemas como el agrupamiento -medias o sus variantes (por ejemplo, -medias discretas, donde los centros están restringidos a estar en , u otras zonas restringidas) en el pequeño coreset para obtener aproximaciones probables más rápidas. Además, se sabe que tales coreset admiten datos en streaming, dinámicos y distribuidos utilizando los árboles clásicos de fusión-reducción. El hecho de que el coreset sea un subconjunto implica que preserva la dispersión de los datos. Sin embargo, los coreset existentes son aleatorios y su tamaño tiene al menos una dependencia lineal en la dimensión . Sugerimos el primer coreset de tamaño de . Esta es también la primera construcción de coreset determinista cuyo tamaño resultante no es exponencial en . Se proporcionan extensos resultados experimentales y comparativos en conjuntos de datos públicos, incluido el primer coreset de la Wikipedia en inglés utilizando la nube de Amazon.

Otros recursos que podrían interesarte

Temas Virtualpro