Validación cruzada para matrices de rango inferior que contienen valores atípicos
Autores: Arciniegas-Alarcón, Sergio; García-Peña, Marisol; Krzanowski, Wojtek J.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Validación cruzada para matrices de rango inferior que contienen valores atípicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Técnicas estadísticas
Matrices de datos
Valores atípicos
Descomposición de valores singulares robusta
Validación cruzada
Estimación de rango
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
Varios métodos estadísticos para analizar matrices de datos utilizan aproximaciones de rango inferior a estas matrices, para las cuales, en general, primero se debe estimar el rango apropiado dependiendo del objetivo del estudio. La estimación puede realizarse mediante validación cruzada (CV), pero la mayoría de los métodos no están diseñados para lidiar con la presencia de valores atípicos, un problema muy común en matrices de datos. La literatura sugiere una opción para evitar el problema, a saber, la eliminación de los valores atípicos, pero dicha eliminación de información solo debe realizarse cuando sea posible verificar que un valor atípico corresponde efectivamente a un error de recolección o de escritura. Este artículo propone una metodología que combina la descomposición de valores singulares robusta (rSVD) con un esquema de CV, lo que permite tener en cuenta los valores atípicos sin eliminarlos. Para ello, se consideran tres posibles rSVD y se proponen seis criterios resistentes para la elección del rango, basados en tres estadísticas clásicas utilizadas en estadísticas multivariadas. Para probar el rendimiento de los diversos métodos, se describe un estudio de simulación y un análisis de datos reales, utilizando una evaluación exclusivamente numérica a través de estadísticas de Procrustes y ángulos críticos entre subespacios de componentes principales. Concluimos que, cuando las matrices de datos están contaminadas con valores atípicos, la mejor estimación del rango es aquella que utiliza un esquema de CV sobre una aproximación de rango inferior robusta (RLRA) que contenga tantos componentes como sea posible. En nuestros experimentos, los mejores resultados se obtuvieron cuando esta RLRA se calculó utilizando un rSVD que minimiza la norma L.
Descripción
Varios métodos estadísticos para analizar matrices de datos utilizan aproximaciones de rango inferior a estas matrices, para las cuales, en general, primero se debe estimar el rango apropiado dependiendo del objetivo del estudio. La estimación puede realizarse mediante validación cruzada (CV), pero la mayoría de los métodos no están diseñados para lidiar con la presencia de valores atípicos, un problema muy común en matrices de datos. La literatura sugiere una opción para evitar el problema, a saber, la eliminación de los valores atípicos, pero dicha eliminación de información solo debe realizarse cuando sea posible verificar que un valor atípico corresponde efectivamente a un error de recolección o de escritura. Este artículo propone una metodología que combina la descomposición de valores singulares robusta (rSVD) con un esquema de CV, lo que permite tener en cuenta los valores atípicos sin eliminarlos. Para ello, se consideran tres posibles rSVD y se proponen seis criterios resistentes para la elección del rango, basados en tres estadísticas clásicas utilizadas en estadísticas multivariadas. Para probar el rendimiento de los diversos métodos, se describe un estudio de simulación y un análisis de datos reales, utilizando una evaluación exclusivamente numérica a través de estadísticas de Procrustes y ángulos críticos entre subespacios de componentes principales. Concluimos que, cuando las matrices de datos están contaminadas con valores atípicos, la mejor estimación del rango es aquella que utiliza un esquema de CV sobre una aproximación de rango inferior robusta (RLRA) que contenga tantos componentes como sea posible. En nuestros experimentos, los mejores resultados se obtuvieron cuando esta RLRA se calculó utilizando un rSVD que minimiza la norma L.