Tomvp: un esquema de aprendizaje de refuerzo basado en transformadores para la persecución de múltiples vehículos en áreas urbanas con restricciones de observación

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Tomvp: un esquema de aprendizaje de refuerzo basado en transformadores para la persecución de múltiples vehículos en áreas urbanas con restricciones de observación

Autores: Yuan, Zheng; Wu, Tianhao; Wang, Qinwen; Yang, Yiying; Li, Lei; Zhang, Lin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Tomvp: un esquema de aprendizaje de refuerzo basado en transformadores para la persecución de múltiples vehículos en áreas urbanas con restricciones de observación

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Inteligente

Internet de vehículos

Inteligencia artificial

Sistema de transporte inteligente

Persecución de múltiples vehículos

Observación restringida

Basado en transformadores

Aprendizaje por refuerzo

Procesos de decisión de Markov parcialmente observados descentralizados

Qmix

Entorno urbano

Resultados experimentales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones

Los vehículos inteligentes de Internet (IoVs) combinados con la Inteligencia Artificial (IA) contribuirán a la toma de decisiones de los vehículos en el Sistema de Transporte Inteligente (ITS). Los juegos de persecución de múltiples vehículos (MVP), una capacidad cooperativa de múltiples vehículos para capturar objetivos móviles, se están convirtiendo gradualmente en un tema de investigación candente. Aunque hay algunos logros en el campo de MVP en el espacio abierto, el área urbana presenta estructuras viales complicadas y espacios de movimiento restringidos como desafíos para la resolución de los juegos de MVP. En este documento definimos un problema de MVP restringido por observación (OMVP) y proponemos un esquema de aprendizaje por refuerzo de tiempo y equipo basado en transformadores (OMVP) para abordar el problema. Primero, se construye un nuevo modelo de persecución de múltiples vehículos basado en Procesos de Decisión de Markov Parcialmente Observados Descentralizados (Dec-POMDPs) para instanciar este problema. En segundo lugar, el QMIX se redefine para abordar el problema de OMVP aprovechando la secuencia de observación basada en transformadores y combinando las observaciones de los vehículos para reducir la influencia de las observaciones restringidas. En tercer lugar, se construye un entorno urbano simulado para verificar el esquema propuesto. Los extensos resultados experimentales demuestran que el esquema OMVP propuesto logra mejoras en relación con los enfoques QMIX más avanzados en un 9,66 a 106,25%, desde escenarios simples hasta difíciles.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro