Aprendizaje por Refuerzo Jerárquico Consciente de Fases con Asignación Dinámica de Autoridad Humano-IA para Búsqueda y Rescate en Montaña
Autores: Zhong, Chenzhe; Liu, Bo; Zhu, Wei; Dai, Dongxu; Jiang, Yu
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Aprendizaje por Refuerzo Jerárquico Consciente de Fases con Asignación Dinámica de Autoridad Humano-IA para Búsqueda y Rescate en Montaña
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Búsqueda y rescate
Terreno montañoso
Colaboración humano-IA
Aprendizaje por refuerzo jerárquico consciente de fases
Autoridad en la toma de decisiones
Fases de la tarea
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las operaciones de búsqueda y rescate (SAR) en terrenos montañosos presentan desafíos significativos debido a entornos complejos, decisiones críticas en tiempo y la necesidad de una colaboración efectiva entre humanos e inteligencia artificial (IA). Los enfoques existentes suelen emplear sistemas totalmente autónomos que carecen de adaptabilidad a los requisitos de tarea variables, o asignaciones de autoridad fija entre humanos e IA que no aprovechan las fortalezas distintas de humanos e IA en las diferentes fases de la misión. Este documento propone el Aprendizaje por Refuerzo Jerárquico Consciente de Fases (PAHRL), un marco novedoso que asigna dinámicamente la autoridad de toma de decisiones entre operadores humanos y agentes de IA en función de las fases de tarea identificadas. Primero, formulamos el problema de SAR en montaña como una estructura de tarea de tres fases: Búsqueda Amplia (WS), Confirmación de Objetivo (TC) y Coordinación de Rescate (RC), y examinamos la consistencia de esta descomposición a través de un análisis de agrupamiento no supervisado, respaldado por la estabilidad bootstrap (ARI = 0.983 +/- 0.083) y múltiples métricas de agrupamiento. En segundo lugar, diseñamos un mecanismo de autoridad adaptativa con cuatro niveles (L1: Liderado por Humanos a L4: Totalmente Automático) que ajusta automáticamente la participación humana en función de las características de la fase actual y las estimaciones de incertidumbre ambiental. En tercer lugar, introducimos un módulo de ejecución de tareas basado en prioridades que asegura una asignación eficiente de recursos a través de múltiples objetivos de rescate, respetando las restricciones de autoridad. Experimentos extensos demuestran que PAHRL supera a los métodos de referencia, logrando una tasa de éxito un 20.9% más alta en comparación con el PPO estándar (59.0% frente a 48.8%) y una mejora del 66.7% sobre enfoques heurísticos. PAHRL mantiene una precisión del 96.9% incluso bajo condiciones de ruido del 60% con solo 0.09 rescates falsos por episodio. Estudios de ablación revelan además que la conciencia de fase actúa como un mecanismo crítico de robustez; eliminar la detección de fases causa un fallo completo de la misión en condiciones ruidosas. Estos resultados evalúan que la asignación dinámica de autoridad consciente de fases mejora significativamente tanto la eficiencia como la robustez en misiones de SAR colaborativas entre humanos e IA. Aunque se demostró en una simulación de prueba de concepto con modelos humanos computacionales, la validación con operadores reales y entornos más complejos sigue siendo esencial antes del despliegue operativo.
Descripción
Las operaciones de búsqueda y rescate (SAR) en terrenos montañosos presentan desafíos significativos debido a entornos complejos, decisiones críticas en tiempo y la necesidad de una colaboración efectiva entre humanos e inteligencia artificial (IA). Los enfoques existentes suelen emplear sistemas totalmente autónomos que carecen de adaptabilidad a los requisitos de tarea variables, o asignaciones de autoridad fija entre humanos e IA que no aprovechan las fortalezas distintas de humanos e IA en las diferentes fases de la misión. Este documento propone el Aprendizaje por Refuerzo Jerárquico Consciente de Fases (PAHRL), un marco novedoso que asigna dinámicamente la autoridad de toma de decisiones entre operadores humanos y agentes de IA en función de las fases de tarea identificadas. Primero, formulamos el problema de SAR en montaña como una estructura de tarea de tres fases: Búsqueda Amplia (WS), Confirmación de Objetivo (TC) y Coordinación de Rescate (RC), y examinamos la consistencia de esta descomposición a través de un análisis de agrupamiento no supervisado, respaldado por la estabilidad bootstrap (ARI = 0.983 +/- 0.083) y múltiples métricas de agrupamiento. En segundo lugar, diseñamos un mecanismo de autoridad adaptativa con cuatro niveles (L1: Liderado por Humanos a L4: Totalmente Automático) que ajusta automáticamente la participación humana en función de las características de la fase actual y las estimaciones de incertidumbre ambiental. En tercer lugar, introducimos un módulo de ejecución de tareas basado en prioridades que asegura una asignación eficiente de recursos a través de múltiples objetivos de rescate, respetando las restricciones de autoridad. Experimentos extensos demuestran que PAHRL supera a los métodos de referencia, logrando una tasa de éxito un 20.9% más alta en comparación con el PPO estándar (59.0% frente a 48.8%) y una mejora del 66.7% sobre enfoques heurísticos. PAHRL mantiene una precisión del 96.9% incluso bajo condiciones de ruido del 60% con solo 0.09 rescates falsos por episodio. Estudios de ablación revelan además que la conciencia de fase actúa como un mecanismo crítico de robustez; eliminar la detección de fases causa un fallo completo de la misión en condiciones ruidosas. Estos resultados evalúan que la asignación dinámica de autoridad consciente de fases mejora significativamente tanto la eficiencia como la robustez en misiones de SAR colaborativas entre humanos e IA. Aunque se demostró en una simulación de prueba de concepto con modelos humanos computacionales, la validación con operadores reales y entornos más complejos sigue siendo esencial antes del despliegue operativo.