Método de Guía Libre de Modelo para Drones en Entornos Complejos Usando Exploración y Optimización de Políticas Directas
Autores: Liu, Hongxun; Suzuki, Satoshi
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Método de Guía Libre de Modelo para Drones en Entornos Complejos Usando Exploración y Optimización de Políticas Directas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Drones
Aprendizaje por refuerzo sin modelo
Planificación
Política de control
Entornos complejos
Control óptimo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En las últimas décadas, los drones se han vuelto más ligeros, con tiempos de suspensión más largos y exhiben un rendimiento más ágil. Para maximizar sus capacidades durante los vuelos en entornos complejos, los investigadores han propuesto varios métodos de percepción, planificación y control basados en modelos, destinados a descomponer el problema en módulos y lograr la tarea de manera colaborativa y secuencial. Sin embargo, en entornos prácticos, es extremadamente difícil modelar tanto los drones como sus entornos, con muy pocos métodos basados en modelos existentes. En este estudio, proponemos un nuevo método basado en el aprendizaje por refuerzo sin modelo que puede aprender la política óptima de planificación y control a partir de datos de vuelo experimentales. Durante la fase de entrenamiento, la política considera el estado completo de los drones y la información ambiental como entradas. Luego, se autooptimiza en función de una función de recompensa predefinida. En implementaciones prácticas, la política toma entradas de sensores a bordo y externos y genera comandos de control óptimos para controladores de velocidad de bajo nivel de manera integral. Al aprovechar esta propiedad, la política de planificación y control puede mejorarse sin la necesidad de un modelo de sistema preciso y puede llevar a los drones a atravesar entornos complejos a altas velocidades. La política fue entrenada y probada en un simulador, así como en experimentos de vuelo en el mundo real, demostrando su aplicabilidad práctica. Los resultados muestran que este método sin modelo puede aprender a volar de manera efectiva y que tiene un gran potencial para manejar diferentes tareas y entornos.
Descripción
En las últimas décadas, los drones se han vuelto más ligeros, con tiempos de suspensión más largos y exhiben un rendimiento más ágil. Para maximizar sus capacidades durante los vuelos en entornos complejos, los investigadores han propuesto varios métodos de percepción, planificación y control basados en modelos, destinados a descomponer el problema en módulos y lograr la tarea de manera colaborativa y secuencial. Sin embargo, en entornos prácticos, es extremadamente difícil modelar tanto los drones como sus entornos, con muy pocos métodos basados en modelos existentes. En este estudio, proponemos un nuevo método basado en el aprendizaje por refuerzo sin modelo que puede aprender la política óptima de planificación y control a partir de datos de vuelo experimentales. Durante la fase de entrenamiento, la política considera el estado completo de los drones y la información ambiental como entradas. Luego, se autooptimiza en función de una función de recompensa predefinida. En implementaciones prácticas, la política toma entradas de sensores a bordo y externos y genera comandos de control óptimos para controladores de velocidad de bajo nivel de manera integral. Al aprovechar esta propiedad, la política de planificación y control puede mejorarse sin la necesidad de un modelo de sistema preciso y puede llevar a los drones a atravesar entornos complejos a altas velocidades. La política fue entrenada y probada en un simulador, así como en experimentos de vuelo en el mundo real, demostrando su aplicabilidad práctica. Los resultados muestran que este método sin modelo puede aprender a volar de manera efectiva y que tiene un gran potencial para manejar diferentes tareas y entornos.