logo móvil
Contáctanos

Un marco de dificultad y similitud de alta resolución para la evaluación dinámica de la generalización de planificación de rutas en UGVs

Autores: Dong, Zewei; Guo, Yaze; Yang, Jingxuan; Tang, Xiaochuan; Xu, Weichao; Lei, Ming

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Un marco de dificultad y similitud de alta resolución para la evaluación dinámica de la generalización de planificación de rutas en UGVs


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Módulos de toma de decisiones
Vehículos terrestres no tripulados
Métodos de evaluación
Similitud de escenarios
Niveles de dificultad
Paisaje de rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La capacidad de generalización de los módulos de toma de decisiones en vehículos terrestres no tripulados (UGVs) es crítica para su despliegue seguro en entornos no vistos. Los métodos de evaluación prevalentes, que se basan en el rendimiento agregado sobre conjuntos de referencia estáticos, carecen de la granularidad necesaria para diagnosticar las causas raíz de la falla del modelo, ya que a menudo confunden las influencias distintas de la similitud del escenario y la dificultad intrínseca. Para superar esta limitación, introducimos un marco de evaluación dinámico y detallado que deconstruye la generalización a lo largo de los dos ejes de dificultad de múltiples niveles y similitud. Primero, la similitud del escenario se cuantifica a través de una descomposición jerárquica de cuatro capas, con resultados agregados en una puntuación de similitud compuesta. Los escenarios de prueba se clasifican independientemente en diez niveles de dificultad discretos mediante un mecanismo de consenso que integra modelos de lenguaje grandes y modelos proxy específicos de la tarea. Al construir un paisaje de rendimiento tridimensional (3D) a través de la similitud, la dificultad y el rendimiento de la tarea, habilitamos un diagnóstico conductual detallado. El marco evalúa la robustez analizando el rendimiento dentro de la banda de alta similitud (90-100%), mientras que el paisaje 3D completo caracteriza la generalización bajo un cambio de distribución. Se derivan siete métricas interpretables para cuantificar distintos aspectos tanto de la generalización como de la robustez. Esta validación inicial se centra en la capa de planificación de rutas bajo una observabilidad completa del estado, estableciendo una prueba de concepto fundamental para el marco. No solo clasifica algoritmos, sino que también revela patrones de comportamiento no triviales, como el desacoplamiento entre la robustez en distribución y la generalización fuera de distribución. Proporciona una base confiable e interpretable para evaluar la preparación de los UGVs para un despliegue seguro en entornos no vistos.

Otros recursos que podrían interesarte

Temas Virtualpro