logo móvil
Contáctanos

Evaluando la aleatorización de dominio en tareas de locomoción del aprendizaje profundo por refuerzo

Autores: Ajani, Oladayo S.; Hur, Sung-ho; Mallipeddi, Rammohan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Evaluando la aleatorización de dominio en tareas de locomoción del aprendizaje profundo por refuerzo


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aleatorización de dominio
Aprendizaje por refuerzo
Propiedades ambientales
Capacidades de generalización
Algoritmos de RL
Tareas de locomoción

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
La aleatorización de dominio en el contexto del aprendizaje por refuerzo (RL) implica entrenar agentes de RL con propiedades o parámetros ambientales aleatorizados para mejorar las capacidades de generalización de los agentes resultantes. Aunque la aleatorización de dominio ha sido estudiada favorablemente en la literatura, se ha estudiado en términos de variar los caracteres operativos de los sistemas asociados o la dinámica física en lugar de sus características ambientales. Esto es contrario a la intuición, ya que es irreal alterar la dinámica mecánica de un sistema en funcionamiento. Además, la mayoría de los trabajos se basaron en entornos seleccionados dentro de diferentes clases de tareas de RL. Por lo tanto, en este trabajo, investigamos la aleatorización de dominio variando solo las propiedades o parámetros del entorno en lugar de variar la dinámica mecánica de los sistemas destacados. Además, el análisis realizado se basó en las seis tareas de locomoción de RL. En cuanto al entrenamiento de los agentes de RL, empleamos dos algoritmos de RL probados (SAC y TD3) y evaluamos las capacidades de generalización de los agentes resultantes en varios escenarios de entrenamiento-prueba que involucran evaluaciones tanto en distribución como fuera de distribución, así como escenarios aplicables en el mundo real. Los resultados demuestran que, aunque la aleatorización de dominio favorece la generalización, algunas tareas solo requieren aleatorización de distribuciones de baja dimensión, mientras que otras requieren aleatorización de alta dimensión. Por lo tanto, la pregunta de cuál es el nivel óptimo de aleatorización para cualquier tarea dada se vuelve muy importante.

Otros recursos que podrían interesarte

Temas Virtualpro