Un método de búsqueda y seguimiento de objetivos en dos etapas para UAV basado en aprendizaje por refuerzo profundo
Autores: Liu, Mei; Wei, Jingbo; Liu, Kun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un método de búsqueda y seguimiento de objetivos en dos etapas para UAV basado en aprendizaje por refuerzo profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Complejidades
Toma de decisiones
Vehículos aéreos no tripulados
Aprendizaje profundo por refuerzo
Búsqueda y rescate
Tareas de SAR
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para abordar las complejidades de la toma de decisiones para vehículos aéreos no tripulados (VANT) en entornos de negación, este documento aplica algoritmos de aprendizaje por refuerzo profundo a tareas de búsqueda y rescate (SAR). Propone un método de búsqueda y seguimiento de objetivos en dos etapas para VANT basado en aprendizaje por refuerzo profundo, que divide las tareas de SAR en etapas de búsqueda y seguimiento, y los controladores para cada etapa se entrenan en base al algoritmo propuesto de gradiente de política determinista profundo con tres redes críticas (DDPG-3C). Se llevan a cabo experimentos de simulación para evaluar el rendimiento de cada etapa en un escenario SAR rectangular bidimensional, incluyendo búsqueda, seguimiento y la etapa integrada completa. Los resultados experimentales muestran que el modelo DDPG-3C propuesto puede aliviar efectivamente el problema de sobreestimación, lo que resulta en una convergencia más rápida y un rendimiento mejorado durante las etapas de búsqueda y seguimiento. Además, el método de búsqueda y seguimiento de objetivos en dos etapas supera el enfoque tradicional de una sola etapa, lo que conduce a una capacidad de toma de decisiones más eficiente y efectiva en tareas de SAR.
Descripción
Para abordar las complejidades de la toma de decisiones para vehículos aéreos no tripulados (VANT) en entornos de negación, este documento aplica algoritmos de aprendizaje por refuerzo profundo a tareas de búsqueda y rescate (SAR). Propone un método de búsqueda y seguimiento de objetivos en dos etapas para VANT basado en aprendizaje por refuerzo profundo, que divide las tareas de SAR en etapas de búsqueda y seguimiento, y los controladores para cada etapa se entrenan en base al algoritmo propuesto de gradiente de política determinista profundo con tres redes críticas (DDPG-3C). Se llevan a cabo experimentos de simulación para evaluar el rendimiento de cada etapa en un escenario SAR rectangular bidimensional, incluyendo búsqueda, seguimiento y la etapa integrada completa. Los resultados experimentales muestran que el modelo DDPG-3C propuesto puede aliviar efectivamente el problema de sobreestimación, lo que resulta en una convergencia más rápida y un rendimiento mejorado durante las etapas de búsqueda y seguimiento. Además, el método de búsqueda y seguimiento de objetivos en dos etapas supera el enfoque tradicional de una sola etapa, lo que conduce a una capacidad de toma de decisiones más eficiente y efectiva en tareas de SAR.