Supervisión de reducción de dimensionalidad de datos proporcionales utilizando distribuciones de familia exponencial
Autores: Masoudimansour, Walid; Bouguila, Nizar
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Supervisión de reducción de dimensionalidad de datos proporcionales utilizando distribuciones de familia exponencial
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Algoritmos de reducción de dimensionalidad supervisados
Maldición de la dimensionalidad
Datos dispersos de alta dimensionalidad
Datos multimodales
Grafos de vecindad
Problema de optimización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
La conducta de los algoritmos de reducción de dimensionalidad supervisada más conocidos suelen sufrir del problema de la dimensionalidad al tratar datos dispersos de alta dimensionalidad debido a matrices de estadísticas de segundo orden mal condicionadas. Además, no manejan adecuadamente los datos multimodales ya que construyen grafos de vecindad que no discriminan entre clases de datos multimodales y unimodales. En este artículo se propone un método novedoso que mitiga los problemas mencionados. En este método, asumiendo que los datos son de dos clases, se proyectan en el espacio de baja dimensionalidad en el primer paso, lo que elimina la dispersión de los datos y reduce drásticamente la complejidad temporal de cualquier operación posterior. Estos datos proyectados se modelan utilizando una mezcla de distribuciones de la familia exponencial para cada clase, lo que permite el modelado de datos multimodales. Se utiliza una medida de similitud entre las dos clases proyectadas como función objetivo para construir un problema de optimización, que luego se resuelve utilizando un algoritmo de búsqueda heurística para encontrar la mejor proyección separadora. Los experimentos realizados muestran que el método propuesto supera al resto de los algoritmos comparados y proporciona una solución efectiva y robusta al problema de reducción de dimensionalidad incluso en presencia de datos multimodales y dispersos.
Descripción
La conducta de los algoritmos de reducción de dimensionalidad supervisada más conocidos suelen sufrir del problema de la dimensionalidad al tratar datos dispersos de alta dimensionalidad debido a matrices de estadísticas de segundo orden mal condicionadas. Además, no manejan adecuadamente los datos multimodales ya que construyen grafos de vecindad que no discriminan entre clases de datos multimodales y unimodales. En este artículo se propone un método novedoso que mitiga los problemas mencionados. En este método, asumiendo que los datos son de dos clases, se proyectan en el espacio de baja dimensionalidad en el primer paso, lo que elimina la dispersión de los datos y reduce drásticamente la complejidad temporal de cualquier operación posterior. Estos datos proyectados se modelan utilizando una mezcla de distribuciones de la familia exponencial para cada clase, lo que permite el modelado de datos multimodales. Se utiliza una medida de similitud entre las dos clases proyectadas como función objetivo para construir un problema de optimización, que luego se resuelve utilizando un algoritmo de búsqueda heurística para encontrar la mejor proyección separadora. Los experimentos realizados muestran que el método propuesto supera al resto de los algoritmos comparados y proporciona una solución efectiva y robusta al problema de reducción de dimensionalidad incluso en presencia de datos multimodales y dispersos.