-means+++: agrupamiento resistente a valores atípicos
Autores: Statman, Adiel; Rozenberg, Liat; Feldman, Dan
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
-means+++: agrupamiento resistente a valores atípicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Calcular
Centros
Distancias
Algoritmo
Valores atípicos
Agrupamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
El problema de -means consiste en calcular un conjunto de centros (puntos) que minimice la suma de distancias al cuadrado a un conjunto dado de puntos en un espacio métrico. Argumentablemente, el algoritmo más común para resolverlo es -means++ que es fácil de implementar y proporciona un error de aproximación pequeño demostrable en un tiempo que es lineal en . Generalizamos -means++ para admitir valores atípicos en dos sentidos (simultáneamente): (i) en espacios no métricos, por ejemplo, M-estimadores, donde la distancia entre un punto y un centro se reemplaza por una constante apropiada que puede depender de la escala de la entrada. (ii) agrupación de -means con valores atípicos, es decir, donde los puntos más alejados de cualquier centro dado se excluyen de la suma total de distancias. Esto se logra mediante una reducción simple a la agrupación de -means (sin valores atípicos).
Descripción
El problema de -means consiste en calcular un conjunto de centros (puntos) que minimice la suma de distancias al cuadrado a un conjunto dado de puntos en un espacio métrico. Argumentablemente, el algoritmo más común para resolverlo es -means++ que es fácil de implementar y proporciona un error de aproximación pequeño demostrable en un tiempo que es lineal en . Generalizamos -means++ para admitir valores atípicos en dos sentidos (simultáneamente): (i) en espacios no métricos, por ejemplo, M-estimadores, donde la distancia entre un punto y un centro se reemplaza por una constante apropiada que puede depender de la escala de la entrada. (ii) agrupación de -means con valores atípicos, es decir, donde los puntos más alejados de cualquier centro dado se excluyen de la suma total de distancias. Esto se logra mediante una reducción simple a la agrupación de -means (sin valores atípicos).