Q-Learning con el Método de Caja Variable: Un Estudio de Caso para Aterrizar un Cohete Sólido
Autores: Tevera-Ruiz, Alejandro; Garcia-Rodriguez, Rodolfo; Parra-Vega, Vicente; Ramos-Velasco, Luis Enrique
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Q-Learning con el Método de Caja Variable: Un Estudio de Caso para Aterrizar un Cohete Sólido
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Tareas críticas
Acciones refinadas
Cerca del objetivo
Restricciones
Resolución
Aprendizaje por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
Algunas tareas críticas requieren acciones refinadas cerca del objetivo, por ejemplo, maniobrar un coche en un aparcamiento concurrido o aterrizar un cohete. Estas tareas son críticas porque el incumplimiento de las restricciones cerca del objetivo puede llevar a una condición fatal (irreversible). Por lo tanto, se requiere una acción de mayor resolución cerca del objetivo para aumentar la precisión de maniobra. Además, completar la tarea se vuelve más desafiante si el entorno cambia o es incierto. Por lo tanto, se han propuesto enfoques novedosos para estos problemas. En particular, se han sugerido esquemas de aprendizaje por refuerzo como el Q-learning para aprender desde cero, sujetos a explorar relaciones causales entre acciones y estados dirigidas a decisiones de acción que conducen a un aumento en la recompensa. El Q-learning refina las entradas de acción iterativas al explorar espacios de estado que maximizan la recompensa. Sin embargo, reducir la caja de resolución (constante) necesaria para tareas críticas aumenta la carga computacional, lo que puede llevar a la maldición equivalente del problema de dimensionalidad. Este artículo propone un método de caja variable para mantener un bajo número de cajas pero reducir su resolución solo cerca del objetivo para aumentar la resolución de acción según sea necesario. La propuesta se aplica a una tarea crítica como el aterrizaje de un cohete sólido, cuya dinámica es altamente no lineal, subactuada, no afín y sujeta a perturbaciones ambientales. Las simulaciones muestran un aterrizaje exitoso sin llevar a una maldición de dimensionalidad, típica del esquema clásico de Q-learning (caja constante).
Descripción
Algunas tareas críticas requieren acciones refinadas cerca del objetivo, por ejemplo, maniobrar un coche en un aparcamiento concurrido o aterrizar un cohete. Estas tareas son críticas porque el incumplimiento de las restricciones cerca del objetivo puede llevar a una condición fatal (irreversible). Por lo tanto, se requiere una acción de mayor resolución cerca del objetivo para aumentar la precisión de maniobra. Además, completar la tarea se vuelve más desafiante si el entorno cambia o es incierto. Por lo tanto, se han propuesto enfoques novedosos para estos problemas. En particular, se han sugerido esquemas de aprendizaje por refuerzo como el Q-learning para aprender desde cero, sujetos a explorar relaciones causales entre acciones y estados dirigidas a decisiones de acción que conducen a un aumento en la recompensa. El Q-learning refina las entradas de acción iterativas al explorar espacios de estado que maximizan la recompensa. Sin embargo, reducir la caja de resolución (constante) necesaria para tareas críticas aumenta la carga computacional, lo que puede llevar a la maldición equivalente del problema de dimensionalidad. Este artículo propone un método de caja variable para mantener un bajo número de cajas pero reducir su resolución solo cerca del objetivo para aumentar la resolución de acción según sea necesario. La propuesta se aplica a una tarea crítica como el aterrizaje de un cohete sólido, cuya dinámica es altamente no lineal, subactuada, no afín y sujeta a perturbaciones ambientales. Las simulaciones muestran un aterrizaje exitoso sin llevar a una maldición de dimensionalidad, típica del esquema clásico de Q-learning (caja constante).