Q-Learning con el Método de Caja Variable: Un Estudio de Caso para Aterrizar un Cohete Sólido

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Q-Learning con el Método de Caja Variable: Un Estudio de Caso para Aterrizar un Cohete Sólido

Autores: Tevera-Ruiz, Alejandro; Garcia-Rodriguez, Rodolfo; Parra-Vega, Vicente; Ramos-Velasco, Luis Enrique

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Q-Learning con el Método de Caja Variable: Un Estudio de Caso para Aterrizar un Cohete Sólido

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Tareas críticas

Acciones refinadas

Cerca del objetivo

Restricciones

Resolución

Aprendizaje por refuerzo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 16

Citaciones: Sin citaciones

Algunas tareas críticas requieren acciones refinadas cerca del objetivo, por ejemplo, maniobrar un coche en un aparcamiento concurrido o aterrizar un cohete. Estas tareas son críticas porque el incumplimiento de las restricciones cerca del objetivo puede llevar a una condición fatal (irreversible). Por lo tanto, se requiere una acción de mayor resolución cerca del objetivo para aumentar la precisión de maniobra. Además, completar la tarea se vuelve más desafiante si el entorno cambia o es incierto. Por lo tanto, se han propuesto enfoques novedosos para estos problemas. En particular, se han sugerido esquemas de aprendizaje por refuerzo como el Q-learning para aprender desde cero, sujetos a explorar relaciones causales entre acciones y estados dirigidas a decisiones de acción que conducen a un aumento en la recompensa. El Q-learning refina las entradas de acción iterativas al explorar espacios de estado que maximizan la recompensa. Sin embargo, reducir la caja de resolución (constante) necesaria para tareas críticas aumenta la carga computacional, lo que puede llevar a la maldición equivalente del problema de dimensionalidad. Este artículo propone un método de caja variable para mantener un bajo número de cajas pero reducir su resolución solo cerca del objetivo para aumentar la resolución de acción según sea necesario. La propuesta se aplica a una tarea crítica como el aterrizaje de un cohete sólido, cuya dinámica es altamente no lineal, subactuada, no afín y sujeta a perturbaciones ambientales. Las simulaciones muestran un aterrizaje exitoso sin llevar a una maldición de dimensionalidad, típica del esquema clásico de Q-learning (caja constante).

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro