Enfoque de aprendizaje por refuerzo guiado de múltiples agentes para navegación dinámica y captura de objetivos multi-USV

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Enfoque de aprendizaje por refuerzo guiado de múltiples agentes para navegación dinámica y captura de objetivos multi-USV

Autores: Nantogma, Sulemana; Zhang, Shangyan; Yu, Xuewei; An, Xuyang; Xu, Yang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Enfoque de aprendizaje por refuerzo guiado de múltiples agentes para navegación dinámica y captura de objetivos multi-USV

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Sistemas autónomos

Sistemas no tripulados

Misiones en grupo

Tarea de navegación cooperativa

Aprendizaje profundo por refuerzo multiagente

Vehículos superficiales no tripulados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

Los sistemas autónomos no tripulados se han convertido en un vehículo atractivo para una multitud de aplicaciones militares y civiles. Esto se puede atribuir en parte a su capacidad para llevar cargas útiles para la utilidad, la detección y otros usos para diversas aplicaciones de forma autónoma. Sin embargo, un desafío clave en la realización de sistemas autónomos no tripulados es la capacidad de realizar misiones grupales complejas, que requieren coordinación y colaboración entre múltiples plataformas. Este documento presenta un enfoque de tarea de navegación cooperativa que permite a múltiples vehículos superficiales no tripulados (multi-USV) capturar de forma autónoma un objetivo en movimiento evitando obstáculos estáticos y dinámicos. El enfoque adopta un marco híbrido de aprendizaje profundo de refuerzo multiagente que aprovecha mecanismos heurísticos para guiar el aprendizaje de la misión grupal de los vehículos. Específicamente, el marco propuesto consta de dos etapas. En la primera etapa, se generan conjuntos de subobjetivos de navegación basados en conocimiento experto, y se utiliza un modelo heurístico de selección de objetivos basado en el modelo de red inmune para seleccionar objetivos de navegación durante el entrenamiento. A continuación, las ejecuciones de los objetivos seleccionados se aprenden utilizando la optimización de políticas proximales de actor-crítico. Los resultados de la simulación con la captura de objetivos multi-USV muestran que el enfoque propuesto es capaz de abstraer y guiar el aprendizaje de coordinación del grupo de vehículos no tripulados y lograr una ejecución de misión generalmente optimizada.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro