Evaluando la aleatorización de dominio en tareas de locomoción del aprendizaje profundo por refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluando la aleatorización de dominio en tareas de locomoción del aprendizaje profundo por refuerzo

Autores: Ajani, Oladayo S.; Hur, Sung-ho; Mallipeddi, Rammohan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Evaluando la aleatorización de dominio en tareas de locomoción del aprendizaje profundo por refuerzo

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aleatorización de dominio

Aprendizaje por refuerzo

Propiedades ambientales

Capacidades de generalización

Algoritmos de RL

Tareas de locomoción

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

La aleatorización de dominio en el contexto del aprendizaje por refuerzo (RL) implica entrenar agentes de RL con propiedades o parámetros ambientales aleatorizados para mejorar las capacidades de generalización de los agentes resultantes. Aunque la aleatorización de dominio ha sido estudiada favorablemente en la literatura, se ha estudiado en términos de variar los caracteres operativos de los sistemas asociados o la dinámica física en lugar de sus características ambientales. Esto es contrario a la intuición, ya que es irreal alterar la dinámica mecánica de un sistema en funcionamiento. Además, la mayoría de los trabajos se basaron en entornos seleccionados dentro de diferentes clases de tareas de RL. Por lo tanto, en este trabajo, investigamos la aleatorización de dominio variando solo las propiedades o parámetros del entorno en lugar de variar la dinámica mecánica de los sistemas destacados. Además, el análisis realizado se basó en las seis tareas de locomoción de RL. En cuanto al entrenamiento de los agentes de RL, empleamos dos algoritmos de RL probados (SAC y TD3) y evaluamos las capacidades de generalización de los agentes resultantes en varios escenarios de entrenamiento-prueba que involucran evaluaciones tanto en distribución como fuera de distribución, así como escenarios aplicables en el mundo real. Los resultados demuestran que, aunque la aleatorización de dominio favorece la generalización, algunas tareas solo requieren aleatorización de distribuciones de baja dimensión, mientras que otras requieren aleatorización de alta dimensión. Por lo tanto, la pregunta de cuál es el nivel óptimo de aleatorización para cualquier tarea dada se vuelve muy importante.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro