logo móvil
Contáctanos

Hacia una Inteligencia Escalable: Un Actor-Crítico Suave de Baja Complejidad para Enjambres de UAV Impulsados por Modelos Grandes

Autores: Liu, Zhaoyu; Cheng, Wenchu; Zeng, Liang; He, Xinxin

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Hacia una Inteligencia Escalable: Un Actor-Crítico Suave de Baja Complejidad para Enjambres de UAV Impulsados por Modelos Grandes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo aéreo no tripulado
Enjambres
Aprendizaje por refuerzo multiagente
Programación de recursos
Compartición de parámetros
Mecanismos de entrenamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los enjambres heterogéneos de vehículos aéreos no tripulados (UAV) se están convirtiendo en componentes críticos de las redes no terrestres de próxima generación, permitiendo tareas como el relevo de comunicación, la monitorización del espectro, la detección cooperativa y la navegación. Sin embargo, su heterogeneidad y multifuncionalidad traen desafíos severos en la asignación de tareas y la programación de recursos, donde los métodos tradicionales de aprendizaje por refuerzo multiagente a menudo sufren de alta complejidad algorítmica, largos tiempos de entrenamiento y dificultades de implementación en nodos con recursos limitados. Para abordar estos problemas, este artículo propone un marco de trabajo de actor-crítico suave multiagente de baja complejidad (MASAC) que combina el intercambio de parámetros (actor compartido con incrustaciones de dispositivo y críticos gemelos de columna vertebral compartidos), un diseño de red ligero (MLP residual de ancho fijo con normalización) y mecanismos de entrenamiento robustos (actualizaciones de críticos gemelos de mínimo sesgo y programación de entropía) dentro del paradigma CTDE. Los resultados de simulación muestran que el marco propuesto logra más de 14 veces de compresión de parámetros y más de un 93% de reducción en el tiempo de entrenamiento, manteniendo o mejorando el rendimiento en términos de la función de utilidad de retraso-energía. Estos avances reducen sustancialmente la sobrecarga computacional y aceleran la convergencia, proporcionando un camino práctico para implementar el aprendizaje por refuerzo multiagente en clústeres heterogéneos de UAV a gran escala y apoyando diversos escenarios de misión bajo estrictas limitaciones de recursos y latencia.

Otros recursos que podrían interesarte

Temas Virtualpro