Evaluando la aleatorización de dominio en tareas de locomoción del aprendizaje profundo por refuerzo
Autores: Ajani, Oladayo S.; Hur, Sung-ho; Mallipeddi, Rammohan
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Evaluando la aleatorización de dominio en tareas de locomoción del aprendizaje profundo por refuerzo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aleatorización de dominio
Aprendizaje por refuerzo
Propiedades ambientales
Capacidades de generalización
Algoritmos de RL
Tareas de locomoción
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La aleatorización de dominio en el contexto del aprendizaje por refuerzo (RL) implica entrenar agentes de RL con propiedades o parámetros ambientales aleatorizados para mejorar las capacidades de generalización de los agentes resultantes. Aunque la aleatorización de dominio ha sido estudiada favorablemente en la literatura, se ha estudiado en términos de variar los caracteres operativos de los sistemas asociados o la dinámica física en lugar de sus características ambientales. Esto es contrario a la intuición, ya que es irreal alterar la dinámica mecánica de un sistema en funcionamiento. Además, la mayoría de los trabajos se basaron en entornos seleccionados dentro de diferentes clases de tareas de RL. Por lo tanto, en este trabajo, investigamos la aleatorización de dominio variando solo las propiedades o parámetros del entorno en lugar de variar la dinámica mecánica de los sistemas destacados. Además, el análisis realizado se basó en las seis tareas de locomoción de RL. En cuanto al entrenamiento de los agentes de RL, empleamos dos algoritmos de RL probados (SAC y TD3) y evaluamos las capacidades de generalización de los agentes resultantes en varios escenarios de entrenamiento-prueba que involucran evaluaciones tanto en distribución como fuera de distribución, así como escenarios aplicables en el mundo real. Los resultados demuestran que, aunque la aleatorización de dominio favorece la generalización, algunas tareas solo requieren aleatorización de distribuciones de baja dimensión, mientras que otras requieren aleatorización de alta dimensión. Por lo tanto, la pregunta de cuál es el nivel óptimo de aleatorización para cualquier tarea dada se vuelve muy importante.
Descripción
La aleatorización de dominio en el contexto del aprendizaje por refuerzo (RL) implica entrenar agentes de RL con propiedades o parámetros ambientales aleatorizados para mejorar las capacidades de generalización de los agentes resultantes. Aunque la aleatorización de dominio ha sido estudiada favorablemente en la literatura, se ha estudiado en términos de variar los caracteres operativos de los sistemas asociados o la dinámica física en lugar de sus características ambientales. Esto es contrario a la intuición, ya que es irreal alterar la dinámica mecánica de un sistema en funcionamiento. Además, la mayoría de los trabajos se basaron en entornos seleccionados dentro de diferentes clases de tareas de RL. Por lo tanto, en este trabajo, investigamos la aleatorización de dominio variando solo las propiedades o parámetros del entorno en lugar de variar la dinámica mecánica de los sistemas destacados. Además, el análisis realizado se basó en las seis tareas de locomoción de RL. En cuanto al entrenamiento de los agentes de RL, empleamos dos algoritmos de RL probados (SAC y TD3) y evaluamos las capacidades de generalización de los agentes resultantes en varios escenarios de entrenamiento-prueba que involucran evaluaciones tanto en distribución como fuera de distribución, así como escenarios aplicables en el mundo real. Los resultados demuestran que, aunque la aleatorización de dominio favorece la generalización, algunas tareas solo requieren aleatorización de distribuciones de baja dimensión, mientras que otras requieren aleatorización de alta dimensión. Por lo tanto, la pregunta de cuál es el nivel óptimo de aleatorización para cualquier tarea dada se vuelve muy importante.