Aumento de la resolución para una mejora en la agrupación del espacio de atributos multidimensional de datos multifuncionales
Autores: Molchanov, Vladimir; Linsen, Lars
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Aumento de la resolución para una mejora en la agrupación del espacio de atributos multidimensional de datos multifuncionales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Algoritmos de agrupamiento
Espacio de alta dimensión
Datos multidimensionales
Algoritmo de agrupamiento basado en histogramas
Interpolación
Espacio de atributos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los algoritmos de agrupamiento en el espacio de alta dimensión requieren muchos datos para funcionar de manera confiable y robusta. Para datos volumétricos multivariantes, es posible interpolar entre los puntos de datos en el espacio de atributos de alta dimensión en función de su relación espacial en el dominio volumétrico (o espacio físico). Así, se pueden generar un número suficientemente alto de puntos de datos, superando la maldición de la dimensionalidad para este tipo particular de datos multidimensionales. Aplicamos esta idea a un algoritmo de agrupamiento basado en histogramas. Creamos una partición uniforme del espacio de atributos en contenedores multidimensionales y calculamos un histograma que indica el número de muestras de datos que pertenecen a cada contenedor. Sin interpolación, el análisis era muy sensible a los tamaños de las celdas del histograma, lo que daba lugar a un agrupamiento inexacto para elecciones inapropiadas: celdas grandes del histograma resultan en ninguna separación de clústeres, mientras que los clústeres se descomponen para celdas pequeñas. Al utilizar una interpolación en el espacio físico, pudimos refinar los datos generando muestras adicionales. La profundidad del esquema de refinamiento se eligió de acuerdo con la distribución local de los puntos de datos en el espacio de atributos y el tamaño de las celdas del histograma. En el caso de discontinuidades de campo que representan límites materiales agudos en los datos volumétricos, la interpolación se puede adaptar para utilizar localmente un esquema de interpolación de vecino más cercano que evita promediar valores a través del límite agudo. En consecuencia, pudimos generar un cálculo de densidad, donde los clústeres permanecen conectados incluso al usar tamaños de celdas muy pequeños. Aprovechamos este resultado para crear un árbol de clúster jerárquico robusto, aplicar nuestra técnica a varios conjuntos de datos y comparar los árboles de clúster antes y después de la interpolación.
Descripción
Los algoritmos de agrupamiento en el espacio de alta dimensión requieren muchos datos para funcionar de manera confiable y robusta. Para datos volumétricos multivariantes, es posible interpolar entre los puntos de datos en el espacio de atributos de alta dimensión en función de su relación espacial en el dominio volumétrico (o espacio físico). Así, se pueden generar un número suficientemente alto de puntos de datos, superando la maldición de la dimensionalidad para este tipo particular de datos multidimensionales. Aplicamos esta idea a un algoritmo de agrupamiento basado en histogramas. Creamos una partición uniforme del espacio de atributos en contenedores multidimensionales y calculamos un histograma que indica el número de muestras de datos que pertenecen a cada contenedor. Sin interpolación, el análisis era muy sensible a los tamaños de las celdas del histograma, lo que daba lugar a un agrupamiento inexacto para elecciones inapropiadas: celdas grandes del histograma resultan en ninguna separación de clústeres, mientras que los clústeres se descomponen para celdas pequeñas. Al utilizar una interpolación en el espacio físico, pudimos refinar los datos generando muestras adicionales. La profundidad del esquema de refinamiento se eligió de acuerdo con la distribución local de los puntos de datos en el espacio de atributos y el tamaño de las celdas del histograma. En el caso de discontinuidades de campo que representan límites materiales agudos en los datos volumétricos, la interpolación se puede adaptar para utilizar localmente un esquema de interpolación de vecino más cercano que evita promediar valores a través del límite agudo. En consecuencia, pudimos generar un cálculo de densidad, donde los clústeres permanecen conectados incluso al usar tamaños de celdas muy pequeños. Aprovechamos este resultado para crear un árbol de clúster jerárquico robusto, aplicar nuestra técnica a varios conjuntos de datos y comparar los árboles de clúster antes y después de la interpolación.