logo móvil
Contáctanos

Un algoritmo de aprendizaje heurístico basado en Thompson Sampling para el problema de orientación en equipo heterogéneo y dinámico

Autores: Uguina, Antonio R.; Gomez, Juan F.; Panadero, Javier; Martínez-Gavara, Anna; Juan, Angel A.

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un algoritmo de aprendizaje heurístico basado en Thompson Sampling para el problema de orientación en equipo heterogéneo y dinámico


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Equipo
Problema de orientación
Variante dinámica
Condiciones ambientales
Adquisición de recompensas
Optimización de aprendizaje heurístico.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
El problema de orientación en equipo (TOP) es un desafío de optimización bien estudiado en el campo de la Investigación de Operaciones, donde varios vehículos buscan maximizar las recompensas totales recopiladas dentro de un límite de tiempo dado al visitar un subconjunto de nodos en una red. Con el objetivo de incluir condiciones dinámicas e inciertas inherentes en escenarios de transporte del mundo real, presentamos una nueva variante dinámica del TOP que considera cambios en tiempo real en las condiciones ambientales que afectan la adquisición de recompensas en cada nodo. Específicamente, modelamos la naturaleza dinámica de los factores ambientales, como la congestión del tráfico, las condiciones climáticas y el nivel de batería de cada vehículo, para reflejar su impacto en la probabilidad de obtener la recompensa al visitar cada tipo de nodo en una red heterogénea. Para abordar este problema, se propone un marco de optimización de aprendizaje heurístico. Combina un algoritmo metaheurístico con muestreo de Thompson para tomar decisiones informadas en entornos dinámicos. Además, realizamos experimentos empíricos para evaluar el impacto de las probabilidades de recompensa variables en la asignación de recursos y la planificación de rutas dentro del contexto de este TOP dinámico, donde los nodos podrían ofrecer un comportamiento de recompensa diferente dependiendo de las condiciones ambientales. Nuestros resultados numéricos indican que el algoritmo de aprendizaje heurístico propuesto supera a los enfoques estáticos, logrando un mejor rendimiento en escenarios altamente dinámicos. Nuestros hallazgos resaltan la efectividad de nuestro enfoque para adaptarse a condiciones dinámicas y optimizar procesos de toma de decisiones en sistemas de transporte.

Otros recursos que podrían interesarte

Temas Virtualpro