Computacionalmente eficiente detección de valores atípicos para datos de alta dimensionalidad utilizando el algoritmo MDP
Autores: Tsagris, Michail; Papadakis, Manos; Alenazi, Abdulaziz; Alzeley, Omar
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Computacionalmente eficiente detección de valores atípicos para datos de alta dimensionalidad utilizando el algoritmo MDP
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Detección de valores atípicos
Detección de anomalías
Comunidad de aprendizaje automático
Tamaño de muestra
Variables
Entorno de alta dimensionalidad.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
La detección de valores atípicos, o detección de anomalías como se conoce en la comunidad de aprendizaje automático, ha ganado interés en los últimos años y se utiliza comúnmente cuando el tamaño de la muestra es menor que el número de variables. En 2015, se propuso un procedimiento de detección de valores atípicos para este entorno de alta dimensionalidad, reemplazando el estimador clásico de determinante de covarianza mínima por el estimador de producto diagonal mínimo. Hablando computacionalmente, su método tiene dos inconvenientes: (a) no es eficiente computacionalmente y no escala, y (b) no es eficiente en memoria y, en algunos casos, no es posible aplicarlo debido a límites de memoria. Abordamos el primer problema a través de un código eficiente escrito en y , mientras que para el segundo problema, utilizamos la descomposición de eigen y sus propiedades. Se realizan experimentos utilizando datos simulados para mostrar la mejora en el tiempo, mientras que se utilizan datos de expresión génica para examinar más a fondo algunas practicidades adicionales asociadas con el algoritmo. Los estudios de simulación arrojan un factor de aceleración que varía entre 17 y 1800, lo que implica una reducción exitosa en la carga computacional del estimador.
Descripción
La detección de valores atípicos, o detección de anomalías como se conoce en la comunidad de aprendizaje automático, ha ganado interés en los últimos años y se utiliza comúnmente cuando el tamaño de la muestra es menor que el número de variables. En 2015, se propuso un procedimiento de detección de valores atípicos para este entorno de alta dimensionalidad, reemplazando el estimador clásico de determinante de covarianza mínima por el estimador de producto diagonal mínimo. Hablando computacionalmente, su método tiene dos inconvenientes: (a) no es eficiente computacionalmente y no escala, y (b) no es eficiente en memoria y, en algunos casos, no es posible aplicarlo debido a límites de memoria. Abordamos el primer problema a través de un código eficiente escrito en y , mientras que para el segundo problema, utilizamos la descomposición de eigen y sus propiedades. Se realizan experimentos utilizando datos simulados para mostrar la mejora en el tiempo, mientras que se utilizan datos de expresión génica para examinar más a fondo algunas practicidades adicionales asociadas con el algoritmo. Los estudios de simulación arrojan un factor de aceleración que varía entre 17 y 1800, lo que implica una reducción exitosa en la carga computacional del estimador.