logo móvil
Contáctanos

Generalizando Operaciones de Rescate en Escenarios de Desastre Usando Drones: Un Enfoque de Aprendizaje por Refuerzo de por Vida

Autores: Xu, Jiangshan; Panagopoulos, Dimitris; Perrusquía, Adolfo; Guo, Weisi; Tsourdos, Antonios

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Generalizando Operaciones de Rescate en Escenarios de Desastre Usando Drones: Un Enfoque de Aprendizaje por Refuerzo de por Vida


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Búsqueda y rescate
Aprendizaje por refuerzo
Vehículo aéreo no tripulado
Entornos post-desastre
Aprendizaje a lo largo de la vida
Trazas de elegibilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las operaciones de búsqueda y rescate (SAR) en entornos post-terremoto se ven obstaculizadas por condiciones ambientales invisibles y ubicaciones inciertas de las víctimas. Si bien el aprendizaje por refuerzo (RL) se ha utilizado para mejorar la navegación de vehículos aéreos no tripulados (UAV) en tales escenarios, su limitada generalización a entornos novedosos, como los entornos post-desastre, sigue siendo un desafío. Para abordar este problema, este artículo propone un marco basado en RL que combina los principios del aprendizaje continuo y los trazos de elegibilidad. Aquí, el enfoque utiliza una heurística de recompensa de modelado basada en experiencias de pre-entrenamiento obtenidas de entornos similares para mejorar la generalización, y al mismo tiempo, se utilizan trazos de elegibilidad para acelerar la convergencia del enfoque general. Las contribuciones combinadas permiten que el algoritmo de RL se adapte a nuevos entornos, al tiempo que asegura una rápida convergencia, lo cual es crítico para las misiones de rescate. Amplios estudios de simulación muestran que el marco propuesto puede mejorar el retorno promedio de recompensa en un 46% en comparación con los algoritmos de RL de referencia. También se realizan estudios de ablación, que demuestran una mejora del 23% en la puntuación total de recompensa en entornos con diferentes complejidades y una mejora del 56% en escenarios con diferentes números de individuos atrapados.

Otros recursos que podrían interesarte

Temas Virtualpro