Un marco de dificultad y similitud de alta resolución para la evaluación dinámica de la generalización de planificación de rutas en UGVs
Autores: Dong, Zewei; Guo, Yaze; Yang, Jingxuan; Tang, Xiaochuan; Xu, Weichao; Lei, Ming
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Un marco de dificultad y similitud de alta resolución para la evaluación dinámica de la generalización de planificación de rutas en UGVs
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Módulos de toma de decisiones
Vehículos terrestres no tripulados
Métodos de evaluación
Similitud de escenarios
Niveles de dificultad
Paisaje de rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La capacidad de generalización de los módulos de toma de decisiones en vehículos terrestres no tripulados (UGVs) es crítica para su despliegue seguro en entornos no vistos. Los métodos de evaluación prevalentes, que se basan en el rendimiento agregado sobre conjuntos de referencia estáticos, carecen de la granularidad necesaria para diagnosticar las causas raíz de la falla del modelo, ya que a menudo confunden las influencias distintas de la similitud del escenario y la dificultad intrínseca. Para superar esta limitación, introducimos un marco de evaluación dinámico y detallado que deconstruye la generalización a lo largo de los dos ejes de dificultad de múltiples niveles y similitud. Primero, la similitud del escenario se cuantifica a través de una descomposición jerárquica de cuatro capas, con resultados agregados en una puntuación de similitud compuesta. Los escenarios de prueba se clasifican independientemente en diez niveles de dificultad discretos mediante un mecanismo de consenso que integra modelos de lenguaje grandes y modelos proxy específicos de la tarea. Al construir un paisaje de rendimiento tridimensional (3D) a través de la similitud, la dificultad y el rendimiento de la tarea, habilitamos un diagnóstico conductual detallado. El marco evalúa la robustez analizando el rendimiento dentro de la banda de alta similitud (90-100%), mientras que el paisaje 3D completo caracteriza la generalización bajo un cambio de distribución. Se derivan siete métricas interpretables para cuantificar distintos aspectos tanto de la generalización como de la robustez. Esta validación inicial se centra en la capa de planificación de rutas bajo una observabilidad completa del estado, estableciendo una prueba de concepto fundamental para el marco. No solo clasifica algoritmos, sino que también revela patrones de comportamiento no triviales, como el desacoplamiento entre la robustez en distribución y la generalización fuera de distribución. Proporciona una base confiable e interpretable para evaluar la preparación de los UGVs para un despliegue seguro en entornos no vistos.
Descripción
La capacidad de generalización de los módulos de toma de decisiones en vehículos terrestres no tripulados (UGVs) es crítica para su despliegue seguro en entornos no vistos. Los métodos de evaluación prevalentes, que se basan en el rendimiento agregado sobre conjuntos de referencia estáticos, carecen de la granularidad necesaria para diagnosticar las causas raíz de la falla del modelo, ya que a menudo confunden las influencias distintas de la similitud del escenario y la dificultad intrínseca. Para superar esta limitación, introducimos un marco de evaluación dinámico y detallado que deconstruye la generalización a lo largo de los dos ejes de dificultad de múltiples niveles y similitud. Primero, la similitud del escenario se cuantifica a través de una descomposición jerárquica de cuatro capas, con resultados agregados en una puntuación de similitud compuesta. Los escenarios de prueba se clasifican independientemente en diez niveles de dificultad discretos mediante un mecanismo de consenso que integra modelos de lenguaje grandes y modelos proxy específicos de la tarea. Al construir un paisaje de rendimiento tridimensional (3D) a través de la similitud, la dificultad y el rendimiento de la tarea, habilitamos un diagnóstico conductual detallado. El marco evalúa la robustez analizando el rendimiento dentro de la banda de alta similitud (90-100%), mientras que el paisaje 3D completo caracteriza la generalización bajo un cambio de distribución. Se derivan siete métricas interpretables para cuantificar distintos aspectos tanto de la generalización como de la robustez. Esta validación inicial se centra en la capa de planificación de rutas bajo una observabilidad completa del estado, estableciendo una prueba de concepto fundamental para el marco. No solo clasifica algoritmos, sino que también revela patrones de comportamiento no triviales, como el desacoplamiento entre la robustez en distribución y la generalización fuera de distribución. Proporciona una base confiable e interpretable para evaluar la preparación de los UGVs para un despliegue seguro en entornos no vistos.