La ampliación de datos para problemas de aprendizaje automático de regresión en dimensiones altas
Autores: Guilhaumon, Clara; Hascoët, Nicolas; Chinesta, Francisco; Lavarde, Marc; Daim, Fatima
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
La ampliación de datos para problemas de aprendizaje automático de regresión en dimensiones altas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Aprendizaje automático
Sistemas físicos
Recopilación de datos
Problemas de alta dimensionalidad
Métodos de aprendizaje activo
Matriz de información de Fisher
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los enfoques de aprendizaje automático se utilizan actualmente para comprender o modelar sistemas físicos complejos. En general, se debe recopilar una cantidad sustancial de muestras para crear un modelo con resultados confiables. Sin embargo, recopilar numerosos datos a menudo es relativamente lento o costoso. Además, los problemas de interés industrial tienden a ser cada vez más complejos y dependen de un alto número de parámetros. Los problemas de alta dimensionalidad implican intrínsecamente la necesidad de grandes cantidades de datos a través de la maldición de la dimensionalidad. Por eso, se han investigado nuevos enfoques basados en técnicas de muestreo inteligente para minimizar el número de muestras necesarias para entrenar el modelo, como los métodos de aprendizaje activo. Aquí, proponemos una técnica basada en una combinación de la matriz de información de Fisher y la descomposición generalizada propia escasa que permite la definición de un nuevo criterio de informatividad de aprendizaje activo en altas dimensiones. Proporcionamos ejemplos que demuestran el rendimiento de esta técnica en una función polinómica teórica de 5D y en una aplicación de simulación de choque industrial. Los resultados demuestran que la estrategia propuesta supera a las habituales.
Descripción
Los enfoques de aprendizaje automático se utilizan actualmente para comprender o modelar sistemas físicos complejos. En general, se debe recopilar una cantidad sustancial de muestras para crear un modelo con resultados confiables. Sin embargo, recopilar numerosos datos a menudo es relativamente lento o costoso. Además, los problemas de interés industrial tienden a ser cada vez más complejos y dependen de un alto número de parámetros. Los problemas de alta dimensionalidad implican intrínsecamente la necesidad de grandes cantidades de datos a través de la maldición de la dimensionalidad. Por eso, se han investigado nuevos enfoques basados en técnicas de muestreo inteligente para minimizar el número de muestras necesarias para entrenar el modelo, como los métodos de aprendizaje activo. Aquí, proponemos una técnica basada en una combinación de la matriz de información de Fisher y la descomposición generalizada propia escasa que permite la definición de un nuevo criterio de informatividad de aprendizaje activo en altas dimensiones. Proporcionamos ejemplos que demuestran el rendimiento de esta técnica en una función polinómica teórica de 5D y en una aplicación de simulación de choque industrial. Los resultados demuestran que la estrategia propuesta supera a las habituales.