Tomvp: un esquema de aprendizaje de refuerzo basado en transformadores para la persecución de múltiples vehículos en áreas urbanas con restricciones de observación
Autores: Yuan, Zheng; Wu, Tianhao; Wang, Qinwen; Yang, Yiying; Li, Lei; Zhang, Lin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Tomvp: un esquema de aprendizaje de refuerzo basado en transformadores para la persecución de múltiples vehículos en áreas urbanas con restricciones de observación
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Inteligente
Internet de vehículos
Inteligencia artificial
Sistema de transporte inteligente
Persecución de múltiples vehículos
Observación restringida
Basado en transformadores
Aprendizaje por refuerzo
Procesos de decisión de Markov parcialmente observados descentralizados
Qmix
Entorno urbano
Resultados experimentales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
Los vehículos inteligentes de Internet (IoVs) combinados con la Inteligencia Artificial (IA) contribuirán a la toma de decisiones de los vehículos en el Sistema de Transporte Inteligente (ITS). Los juegos de persecución de múltiples vehículos (MVP), una capacidad cooperativa de múltiples vehículos para capturar objetivos móviles, se están convirtiendo gradualmente en un tema de investigación candente. Aunque hay algunos logros en el campo de MVP en el espacio abierto, el área urbana presenta estructuras viales complicadas y espacios de movimiento restringidos como desafíos para la resolución de los juegos de MVP. En este documento definimos un problema de MVP restringido por observación (OMVP) y proponemos un esquema de aprendizaje por refuerzo de tiempo y equipo basado en transformadores (OMVP) para abordar el problema. Primero, se construye un nuevo modelo de persecución de múltiples vehículos basado en Procesos de Decisión de Markov Parcialmente Observados Descentralizados (Dec-POMDPs) para instanciar este problema. En segundo lugar, el QMIX se redefine para abordar el problema de OMVP aprovechando la secuencia de observación basada en transformadores y combinando las observaciones de los vehículos para reducir la influencia de las observaciones restringidas. En tercer lugar, se construye un entorno urbano simulado para verificar el esquema propuesto. Los extensos resultados experimentales demuestran que el esquema OMVP propuesto logra mejoras en relación con los enfoques QMIX más avanzados en un 9,66 a 106,25%, desde escenarios simples hasta difíciles.
Descripción
Los vehículos inteligentes de Internet (IoVs) combinados con la Inteligencia Artificial (IA) contribuirán a la toma de decisiones de los vehículos en el Sistema de Transporte Inteligente (ITS). Los juegos de persecución de múltiples vehículos (MVP), una capacidad cooperativa de múltiples vehículos para capturar objetivos móviles, se están convirtiendo gradualmente en un tema de investigación candente. Aunque hay algunos logros en el campo de MVP en el espacio abierto, el área urbana presenta estructuras viales complicadas y espacios de movimiento restringidos como desafíos para la resolución de los juegos de MVP. En este documento definimos un problema de MVP restringido por observación (OMVP) y proponemos un esquema de aprendizaje por refuerzo de tiempo y equipo basado en transformadores (OMVP) para abordar el problema. Primero, se construye un nuevo modelo de persecución de múltiples vehículos basado en Procesos de Decisión de Markov Parcialmente Observados Descentralizados (Dec-POMDPs) para instanciar este problema. En segundo lugar, el QMIX se redefine para abordar el problema de OMVP aprovechando la secuencia de observación basada en transformadores y combinando las observaciones de los vehículos para reducir la influencia de las observaciones restringidas. En tercer lugar, se construye un entorno urbano simulado para verificar el esquema propuesto. Los extensos resultados experimentales demuestran que el esquema OMVP propuesto logra mejoras en relación con los enfoques QMIX más avanzados en un 9,66 a 106,25%, desde escenarios simples hasta difíciles.