Identificando la dimensión informativa/señal en el análisis de componentes principales
Autores: Camiz, Sergio; Pillar, Valério D.
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Identificando la dimensión informativa/señal en el análisis de componentes principales
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Análisis de datos
Análisis de componentes principales
Señal
Ruido
Valores propios
Método de prueba
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La identificación de una representación dimensional reducida de los datos es uno de los principales problemas del análisis exploratorio de datos multidimensionales y se han propuesto varias soluciones en la literatura según el método. El Análisis de Componentes Principales (PCA) es el método que ha recibido la mayor atención hasta ahora y se han propuesto varios métodos de identificación, los denominados "métodos de identificación", que dan resultados muy diferentes en la práctica, y se ha llevado a cabo algún estudio comparativo. Algunas inconsistencias en los estudios anteriores nos llevaron a intentar fijar la distinción entre la señal y el ruido en PCA, y sus límites, y proponer un nuevo método de prueba. Esto consiste en la producción de datos simulados según una estructura de valores propios predefinida, incluidos los valores propios cero. A partir de poblaciones aleatorias construidas según varias de estas estructuras, se extrajeron muestras de tamaño reducido a las que se les añadieron diferentes niveles de ruido normal aleatorio. Esta introducción controlada de ruido permite una clara distinción entre la señal esperada y el ruido, este último relegado a los valores propios no nulos en las muestras correspondientes a los ceros en la población. Con este nuevo método, probamos el rendimiento de diez reglas de parada diferentes. De cada método, para cada estructura y cada nivel de ruido, se han medido tanto la potencia (la capacidad de identificar correctamente la dimensión esperada) como el error de tipo I (la detección de una dimensión compuesta solo por ruido), contando las frecuencias relativas en las que el valor propio no nulo más pequeño en la población fue reconocido como señal en las muestras y en las que el valor propio cero más grande fue reconocido como ruido, respectivamente. De esta manera, el comportamiento de los métodos examinados es claro y su comparación/evaluación es posible. Los resultados reportados muestran que tanto la generalización de la prueba de Bartlett por Rencher como el método Bootstrap por Pillar resultan mucho mejores que todos los demás: ambos cuentan con una potencia razonable, que disminuye con el ruido, y un error de tipo I muy bueno. Por lo tanto, más que los demás, estos métodos merecen ser adoptados.
Descripción
La identificación de una representación dimensional reducida de los datos es uno de los principales problemas del análisis exploratorio de datos multidimensionales y se han propuesto varias soluciones en la literatura según el método. El Análisis de Componentes Principales (PCA) es el método que ha recibido la mayor atención hasta ahora y se han propuesto varios métodos de identificación, los denominados "métodos de identificación", que dan resultados muy diferentes en la práctica, y se ha llevado a cabo algún estudio comparativo. Algunas inconsistencias en los estudios anteriores nos llevaron a intentar fijar la distinción entre la señal y el ruido en PCA, y sus límites, y proponer un nuevo método de prueba. Esto consiste en la producción de datos simulados según una estructura de valores propios predefinida, incluidos los valores propios cero. A partir de poblaciones aleatorias construidas según varias de estas estructuras, se extrajeron muestras de tamaño reducido a las que se les añadieron diferentes niveles de ruido normal aleatorio. Esta introducción controlada de ruido permite una clara distinción entre la señal esperada y el ruido, este último relegado a los valores propios no nulos en las muestras correspondientes a los ceros en la población. Con este nuevo método, probamos el rendimiento de diez reglas de parada diferentes. De cada método, para cada estructura y cada nivel de ruido, se han medido tanto la potencia (la capacidad de identificar correctamente la dimensión esperada) como el error de tipo I (la detección de una dimensión compuesta solo por ruido), contando las frecuencias relativas en las que el valor propio no nulo más pequeño en la población fue reconocido como señal en las muestras y en las que el valor propio cero más grande fue reconocido como ruido, respectivamente. De esta manera, el comportamiento de los métodos examinados es claro y su comparación/evaluación es posible. Los resultados reportados muestran que tanto la generalización de la prueba de Bartlett por Rencher como el método Bootstrap por Pillar resultan mucho mejores que todos los demás: ambos cuentan con una potencia razonable, que disminuye con el ruido, y un error de tipo I muy bueno. Por lo tanto, más que los demás, estos métodos merecen ser adoptados.