Control Tolerante a Fallos para un Sistema de Exploración Multi-UAV a través de un Algoritmo de Aprendizaje por Refuerzo
Autores: Jiang, Zhiling; Song, Tiantian; Yang, Bowei; Song, Guanghua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Control Tolerante a Fallos para un Sistema de Exploración Multi-UAV a través de un Algoritmo de Aprendizaje por Refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Algoritmo de aprendizaje por refuerzo multi-agente tolerante a fallos
Enjambre de UAV
Estado de salud
Tareas de exploración
Módulo de convolución temporal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
En el enjambre de UAV, la degradación en el estado de salud de algunos UAV a menudo trae efectos negativos al sistema. Para compensar el efecto negativo, presentamos un Algoritmo de Aprendizaje por Refuerzo Multi-Agente tolerante a fallos que puede controlar un sistema inestable de Vehículos Aéreos No Tripulados Múltiples (Multi-UAV) para realizar tareas de exploración. A diferencia de los métodos tradicionales de múltiples agentes que requieren que los agentes permanezcan saludables durante la ejecución de la tarea, nuestro enfoque rompe esta limitación y permite que los agentes cambien de estado durante la tarea. En nuestro algoritmo, el agente puede aceptar tanto la matriz de estado de adyacencia sobre los agentes vecinos como un tipo de vector de estado saludable para integrar ambos y generar la topología de comunicación. Durante este proceso, se presta más atención a los agentes con un estado de salud deficiente para que regresen a un estado normal. Además, integramos un módulo de convolución temporal en nuestro algoritmo y habilitamos al agente para capturar la información temporal durante la tarea. Introducimos un escenario relacionado con la exploración terrestre de Multi-UAV, donde el estado de salud de los UAV se debilita gradualmente con el tiempo antes de caer en un estado de fallo; los UAV requieren rescates de vez en cuando. Realizamos algunos experimentos en este escenario y verificamos nuestro algoritmo. Nuestro algoritmo puede aumentar la tasa de supervivencia de los drones y hacer que el enjambre funcione mejor.
Descripción
En el enjambre de UAV, la degradación en el estado de salud de algunos UAV a menudo trae efectos negativos al sistema. Para compensar el efecto negativo, presentamos un Algoritmo de Aprendizaje por Refuerzo Multi-Agente tolerante a fallos que puede controlar un sistema inestable de Vehículos Aéreos No Tripulados Múltiples (Multi-UAV) para realizar tareas de exploración. A diferencia de los métodos tradicionales de múltiples agentes que requieren que los agentes permanezcan saludables durante la ejecución de la tarea, nuestro enfoque rompe esta limitación y permite que los agentes cambien de estado durante la tarea. En nuestro algoritmo, el agente puede aceptar tanto la matriz de estado de adyacencia sobre los agentes vecinos como un tipo de vector de estado saludable para integrar ambos y generar la topología de comunicación. Durante este proceso, se presta más atención a los agentes con un estado de salud deficiente para que regresen a un estado normal. Además, integramos un módulo de convolución temporal en nuestro algoritmo y habilitamos al agente para capturar la información temporal durante la tarea. Introducimos un escenario relacionado con la exploración terrestre de Multi-UAV, donde el estado de salud de los UAV se debilita gradualmente con el tiempo antes de caer en un estado de fallo; los UAV requieren rescates de vez en cuando. Realizamos algunos experimentos en este escenario y verificamos nuestro algoritmo. Nuestro algoritmo puede aumentar la tasa de supervivencia de los drones y hacer que el enjambre funcione mejor.