Pfa-nipals: un método no supervisado de selección de características principales basado en estimación no lineal mediante mínimos cuadrados parciales iterativos
Autores: Castillo-Ibarra, Emilio; Alsina, Marco A.; Astudillo, Cesar A.; Fuenzalida-Henríquez, Ignacio
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Pfa-nipals: un método no supervisado de selección de características principales basado en estimación no lineal mediante mínimos cuadrados parciales iterativos
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Selección de características no supervisada
UFS
Datos faltantes
PFA-Nipals
Componentes principales
Agrupamiento K-medias en minibatches
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
La selección de características no supervisada (UFS) ha recibido un gran interés en varias áreas de investigación que requieren reducción de dimensionalidad, incluyendo aprendizaje automático, minería de datos y análisis estadístico. Sin embargo, se sabe que los algoritmos de UFS tienen un rendimiento deficiente en conjuntos de datos con datos faltantes, mostrando una carga computacional significativa y un sesgo de aprendizaje. En este trabajo, proponemos un método de UFS novedoso y robusto, designado PFA-Nipals, que trabaja con datos faltantes sin necesidad de eliminación o imputación. Esto se logra considerando una estimación no lineal iterativa de componentes principales mediante mínimos cuadrados parciales, mientras que las características relevantes se seleccionan a través de agrupamiento K-means en mini lotes. El método propuesto se aplica con éxito para seleccionar las características relevantes de un robusto conjunto de datos de salud con datos faltantes, superando a otros métodos de UFS en términos de carga computacional y sesgo de aprendizaje. Además, el método propuesto es capaz de encontrar un conjunto consistente de características relevantes sin sesgar la variabilidad explicada, incluso con datos faltantes crecientes. Finalmente, se espera que el método propuesto pueda ser utilizado en varias áreas, como aprendizaje automático y big data con aplicaciones en diferentes áreas de las ciencias médicas y de ingeniería.
Descripción
La selección de características no supervisada (UFS) ha recibido un gran interés en varias áreas de investigación que requieren reducción de dimensionalidad, incluyendo aprendizaje automático, minería de datos y análisis estadístico. Sin embargo, se sabe que los algoritmos de UFS tienen un rendimiento deficiente en conjuntos de datos con datos faltantes, mostrando una carga computacional significativa y un sesgo de aprendizaje. En este trabajo, proponemos un método de UFS novedoso y robusto, designado PFA-Nipals, que trabaja con datos faltantes sin necesidad de eliminación o imputación. Esto se logra considerando una estimación no lineal iterativa de componentes principales mediante mínimos cuadrados parciales, mientras que las características relevantes se seleccionan a través de agrupamiento K-means en mini lotes. El método propuesto se aplica con éxito para seleccionar las características relevantes de un robusto conjunto de datos de salud con datos faltantes, superando a otros métodos de UFS en términos de carga computacional y sesgo de aprendizaje. Además, el método propuesto es capaz de encontrar un conjunto consistente de características relevantes sin sesgar la variabilidad explicada, incluso con datos faltantes crecientes. Finalmente, se espera que el método propuesto pueda ser utilizado en varias áreas, como aprendizaje automático y big data con aplicaciones en diferentes áreas de las ciencias médicas y de ingeniería.