Mejorando la Robustez del Control de Cuadrotor con Aprendizaje por Refuerzo Profundo Guiado por Atención Auto-Proporcional-Integral-Derivada Multi-Proporcional
Autores: Ren, Yahui; Zhu, Feng; Sui, Shuaishuai; Yi, Zhengming; Chen, Kai
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejorando la Robustez del Control de Cuadrotor con Aprendizaje por Refuerzo Profundo Guiado por Atención Auto-Proporcional-Integral-Derivada Multi-Proporcional
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Aeronaves quadrotor
Rendimiento de control
Proceso de entrenamiento
Modelos de perturbación
Mecanismo de autoatención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje profundo por refuerzo ha demostrado ventajas de flexibilidad en el campo del control de aeronaves cuadricóptero. Sin embargo, cuando hay perturbaciones repentinas en el entorno, especialmente perturbaciones especiales más allá de la experiencia, el algoritmo a menudo encuentra dificultades para mantener un buen rendimiento de control. Además, debido a la aleatoriedad en la exploración de estados del algoritmo, la eficiencia de mejora del modelo durante el proceso de entrenamiento es baja e inestable. Para abordar estos problemas, proponemos un marco de aprendizaje profundo por refuerzo guiado por Multi-PID Self-Attention para enfrentar los desafíos en la velocidad de entrenamiento y la adaptabilidad ambiental de los algoritmos de control de aeronaves cuadricóptero. Al construir el entorno del experimento de simulación, introducimos múltiples modelos de perturbación para simular situaciones complejas en el mundo real. Al combinar la estrategia de control PID con el aprendizaje profundo por refuerzo y utilizar el mecanismo de autoatención de múltiples cabezas para optimizar la función de recompensa del estado en el entorno de simulación, este marco logra un proceso de entrenamiento eficiente y estable. Este experimento tiene como objetivo entrenar un modelo de simulación de cuadricóptero para volar con precisión a una posición predeterminada bajo diversas condiciones de perturbación y, posteriormente, mantener un estado de flotación estable. Los resultados experimentales muestran que, en comparación con los algoritmos tradicionales de aprendizaje profundo por refuerzo, este método logra mejoras significativas en la eficiencia de entrenamiento y la capacidad de exploración del estado. Al mismo tiempo, este estudio analiza profundamente el efecto de aplicación del algoritmo en diferentes entornos complejos, verifica su superior robustez y capacidad de generalización para lidiar con perturbaciones ambientales, y proporciona una nueva solución para el control inteligente de aeronaves cuadricóptero.
Descripción
El aprendizaje profundo por refuerzo ha demostrado ventajas de flexibilidad en el campo del control de aeronaves cuadricóptero. Sin embargo, cuando hay perturbaciones repentinas en el entorno, especialmente perturbaciones especiales más allá de la experiencia, el algoritmo a menudo encuentra dificultades para mantener un buen rendimiento de control. Además, debido a la aleatoriedad en la exploración de estados del algoritmo, la eficiencia de mejora del modelo durante el proceso de entrenamiento es baja e inestable. Para abordar estos problemas, proponemos un marco de aprendizaje profundo por refuerzo guiado por Multi-PID Self-Attention para enfrentar los desafíos en la velocidad de entrenamiento y la adaptabilidad ambiental de los algoritmos de control de aeronaves cuadricóptero. Al construir el entorno del experimento de simulación, introducimos múltiples modelos de perturbación para simular situaciones complejas en el mundo real. Al combinar la estrategia de control PID con el aprendizaje profundo por refuerzo y utilizar el mecanismo de autoatención de múltiples cabezas para optimizar la función de recompensa del estado en el entorno de simulación, este marco logra un proceso de entrenamiento eficiente y estable. Este experimento tiene como objetivo entrenar un modelo de simulación de cuadricóptero para volar con precisión a una posición predeterminada bajo diversas condiciones de perturbación y, posteriormente, mantener un estado de flotación estable. Los resultados experimentales muestran que, en comparación con los algoritmos tradicionales de aprendizaje profundo por refuerzo, este método logra mejoras significativas en la eficiencia de entrenamiento y la capacidad de exploración del estado. Al mismo tiempo, este estudio analiza profundamente el efecto de aplicación del algoritmo en diferentes entornos complejos, verifica su superior robustez y capacidad de generalización para lidiar con perturbaciones ambientales, y proporciona una nueva solución para el control inteligente de aeronaves cuadricóptero.