logo móvil
Contáctanos

Tomvp: un esquema de aprendizaje de refuerzo basado en transformadores para la persecución de múltiples vehículos en áreas urbanas con restricciones de observación

Autores: Yuan, Zheng; Wu, Tianhao; Wang, Qinwen; Yang, Yiying; Li, Lei; Zhang, Lin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Tomvp: un esquema de aprendizaje de refuerzo basado en transformadores para la persecución de múltiples vehículos en áreas urbanas con restricciones de observación


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Inteligente
Internet de vehículos
Inteligencia artificial
Sistema de transporte inteligente
Persecución de múltiples vehículos
Observación restringida
Basado en transformadores
Aprendizaje por refuerzo
Procesos de decisión de Markov parcialmente observados descentralizados
Qmix
Entorno urbano
Resultados experimentales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones


Descripción
Los vehículos inteligentes de Internet (IoVs) combinados con la Inteligencia Artificial (IA) contribuirán a la toma de decisiones de los vehículos en el Sistema de Transporte Inteligente (ITS). Los juegos de persecución de múltiples vehículos (MVP), una capacidad cooperativa de múltiples vehículos para capturar objetivos móviles, se están convirtiendo gradualmente en un tema de investigación candente. Aunque hay algunos logros en el campo de MVP en el espacio abierto, el área urbana presenta estructuras viales complicadas y espacios de movimiento restringidos como desafíos para la resolución de los juegos de MVP. En este documento definimos un problema de MVP restringido por observación (OMVP) y proponemos un esquema de aprendizaje por refuerzo de tiempo y equipo basado en transformadores (OMVP) para abordar el problema. Primero, se construye un nuevo modelo de persecución de múltiples vehículos basado en Procesos de Decisión de Markov Parcialmente Observados Descentralizados (Dec-POMDPs) para instanciar este problema. En segundo lugar, el QMIX se redefine para abordar el problema de OMVP aprovechando la secuencia de observación basada en transformadores y combinando las observaciones de los vehículos para reducir la influencia de las observaciones restringidas. En tercer lugar, se construye un entorno urbano simulado para verificar el esquema propuesto. Los extensos resultados experimentales demuestran que el esquema OMVP propuesto logra mejoras en relación con los enfoques QMIX más avanzados en un 9,66 a 106,25%, desde escenarios simples hasta difíciles.

Otros recursos que podrían interesarte

Temas Virtualpro