Generalizando Operaciones de Rescate en Escenarios de Desastre Usando Drones: Un Enfoque de Aprendizaje por Refuerzo de por Vida
Autores: Xu, Jiangshan; Panagopoulos, Dimitris; Perrusquía, Adolfo; Guo, Weisi; Tsourdos, Antonios
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Generalizando Operaciones de Rescate en Escenarios de Desastre Usando Drones: Un Enfoque de Aprendizaje por Refuerzo de por Vida
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Búsqueda y rescate
Aprendizaje por refuerzo
Vehículo aéreo no tripulado
Entornos post-desastre
Aprendizaje a lo largo de la vida
Trazas de elegibilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las operaciones de búsqueda y rescate (SAR) en entornos post-terremoto se ven obstaculizadas por condiciones ambientales invisibles y ubicaciones inciertas de las víctimas. Si bien el aprendizaje por refuerzo (RL) se ha utilizado para mejorar la navegación de vehículos aéreos no tripulados (UAV) en tales escenarios, su limitada generalización a entornos novedosos, como los entornos post-desastre, sigue siendo un desafío. Para abordar este problema, este artículo propone un marco basado en RL que combina los principios del aprendizaje continuo y los trazos de elegibilidad. Aquí, el enfoque utiliza una heurística de recompensa de modelado basada en experiencias de pre-entrenamiento obtenidas de entornos similares para mejorar la generalización, y al mismo tiempo, se utilizan trazos de elegibilidad para acelerar la convergencia del enfoque general. Las contribuciones combinadas permiten que el algoritmo de RL se adapte a nuevos entornos, al tiempo que asegura una rápida convergencia, lo cual es crítico para las misiones de rescate. Amplios estudios de simulación muestran que el marco propuesto puede mejorar el retorno promedio de recompensa en un 46% en comparación con los algoritmos de RL de referencia. También se realizan estudios de ablación, que demuestran una mejora del 23% en la puntuación total de recompensa en entornos con diferentes complejidades y una mejora del 56% en escenarios con diferentes números de individuos atrapados.
Descripción
Las operaciones de búsqueda y rescate (SAR) en entornos post-terremoto se ven obstaculizadas por condiciones ambientales invisibles y ubicaciones inciertas de las víctimas. Si bien el aprendizaje por refuerzo (RL) se ha utilizado para mejorar la navegación de vehículos aéreos no tripulados (UAV) en tales escenarios, su limitada generalización a entornos novedosos, como los entornos post-desastre, sigue siendo un desafío. Para abordar este problema, este artículo propone un marco basado en RL que combina los principios del aprendizaje continuo y los trazos de elegibilidad. Aquí, el enfoque utiliza una heurística de recompensa de modelado basada en experiencias de pre-entrenamiento obtenidas de entornos similares para mejorar la generalización, y al mismo tiempo, se utilizan trazos de elegibilidad para acelerar la convergencia del enfoque general. Las contribuciones combinadas permiten que el algoritmo de RL se adapte a nuevos entornos, al tiempo que asegura una rápida convergencia, lo cual es crítico para las misiones de rescate. Amplios estudios de simulación muestran que el marco propuesto puede mejorar el retorno promedio de recompensa en un 46% en comparación con los algoritmos de RL de referencia. También se realizan estudios de ablación, que demuestran una mejora del 23% en la puntuación total de recompensa en entornos con diferentes complejidades y una mejora del 56% en escenarios con diferentes números de individuos atrapados.