Estimando el clúster principal mediante Mean-Shift con actualización del núcleo
Autores: Tian, Ye; Yokota, Yasunari
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Estimando el clúster principal mediante Mean-Shift con actualización del núcleo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Método de desplazamiento de media
Núcleo
Muestras
Moda
Grupos
Valores atípicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
El método de desplazamiento de la media es un método conveniente de búsqueda de modo. Utilizando un principio de la media de la muestra sobre una ventana de análisis, o núcleo, en un espacio de datos donde las muestras están distribuidas con sesgo hacia la dirección más densa de la muestra desde el centro del núcleo, el método de desplazamiento de la media es un intento de buscar el punto más denso de las muestras, o el modo de la muestra, de manera iterativa. Un núcleo más pequeño conduce a la convergencia a un modo local que aparece debido a fluctuaciones estadísticas. Un núcleo más grande lleva a la estimación de un modo sesgado afectado por otros grupos, valores anómalos o atípicos si existen además del grupo principal. Por lo tanto, la selección óptima del tamaño del núcleo, que se designa como ancho de banda en muchos informes de la literatura, representa un problema importante. Como se describe aquí, asumiendo que el grupo principal sigue una distribución de densidad de probabilidad gaussiana, y, asumiendo que los valores atípicos no afectan el modo de la muestra del grupo principal, y, adoptando un núcleo gaussiano, proponemos un nuevo desplazamiento de la media mediante el cual se estiman tanto el vector medio como la matriz de covarianza del grupo principal en cada iteración. Posteriormente, el tamaño y la forma del núcleo se actualizan de forma adaptativa. Experimentos numéricos indican que el vector medio, la matriz de covarianza y el número de muestras del grupo principal se pueden estimar de manera estable. Debido a que la forma del núcleo se puede ajustar no solo a una forma isotrópica sino también a una forma anisotrópica de acuerdo con la distribución de las muestras, el método propuesto tiene una precisión de estimación mayor que el desplazamiento de la media general.
Descripción
El método de desplazamiento de la media es un método conveniente de búsqueda de modo. Utilizando un principio de la media de la muestra sobre una ventana de análisis, o núcleo, en un espacio de datos donde las muestras están distribuidas con sesgo hacia la dirección más densa de la muestra desde el centro del núcleo, el método de desplazamiento de la media es un intento de buscar el punto más denso de las muestras, o el modo de la muestra, de manera iterativa. Un núcleo más pequeño conduce a la convergencia a un modo local que aparece debido a fluctuaciones estadísticas. Un núcleo más grande lleva a la estimación de un modo sesgado afectado por otros grupos, valores anómalos o atípicos si existen además del grupo principal. Por lo tanto, la selección óptima del tamaño del núcleo, que se designa como ancho de banda en muchos informes de la literatura, representa un problema importante. Como se describe aquí, asumiendo que el grupo principal sigue una distribución de densidad de probabilidad gaussiana, y, asumiendo que los valores atípicos no afectan el modo de la muestra del grupo principal, y, adoptando un núcleo gaussiano, proponemos un nuevo desplazamiento de la media mediante el cual se estiman tanto el vector medio como la matriz de covarianza del grupo principal en cada iteración. Posteriormente, el tamaño y la forma del núcleo se actualizan de forma adaptativa. Experimentos numéricos indican que el vector medio, la matriz de covarianza y el número de muestras del grupo principal se pueden estimar de manera estable. Debido a que la forma del núcleo se puede ajustar no solo a una forma isotrópica sino también a una forma anisotrópica de acuerdo con la distribución de las muestras, el método propuesto tiene una precisión de estimación mayor que el desplazamiento de la media general.