logo móvil
Contáctanos

Validación cruzada para matrices de rango inferior que contienen valores atípicos

Autores: Arciniegas-Alarcón, Sergio; García-Peña, Marisol; Krzanowski, Wojtek J.

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Validación cruzada para matrices de rango inferior que contienen valores atípicos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Técnicas estadísticas
Matrices de datos
Valores atípicos
Descomposición de valores singulares robusta
Validación cruzada
Estimación de rango

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones


Descripción
Varios métodos estadísticos para analizar matrices de datos utilizan aproximaciones de rango inferior a estas matrices, para las cuales, en general, primero se debe estimar el rango apropiado dependiendo del objetivo del estudio. La estimación puede realizarse mediante validación cruzada (CV), pero la mayoría de los métodos no están diseñados para lidiar con la presencia de valores atípicos, un problema muy común en matrices de datos. La literatura sugiere una opción para evitar el problema, a saber, la eliminación de los valores atípicos, pero dicha eliminación de información solo debe realizarse cuando sea posible verificar que un valor atípico corresponde efectivamente a un error de recolección o de escritura. Este artículo propone una metodología que combina la descomposición de valores singulares robusta (rSVD) con un esquema de CV, lo que permite tener en cuenta los valores atípicos sin eliminarlos. Para ello, se consideran tres posibles rSVD y se proponen seis criterios resistentes para la elección del rango, basados en tres estadísticas clásicas utilizadas en estadísticas multivariadas. Para probar el rendimiento de los diversos métodos, se describe un estudio de simulación y un análisis de datos reales, utilizando una evaluación exclusivamente numérica a través de estadísticas de Procrustes y ángulos críticos entre subespacios de componentes principales. Concluimos que, cuando las matrices de datos están contaminadas con valores atípicos, la mejor estimación del rango es aquella que utiliza un esquema de CV sobre una aproximación de rango inferior robusta (RLRA) que contenga tantos componentes como sea posible. En nuestros experimentos, los mejores resultados se obtuvieron cuando esta RLRA se calculó utilizando un rSVD que minimiza la norma L.

Otros recursos que podrían interesarte

Temas Virtualpro