Hacia una Inteligencia Escalable: Un Actor-Crítico Suave de Baja Complejidad para Enjambres de UAV Impulsados por Modelos Grandes
Autores: Liu, Zhaoyu; Cheng, Wenchu; Zeng, Liang; He, Xinxin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Hacia una Inteligencia Escalable: Un Actor-Crítico Suave de Baja Complejidad para Enjambres de UAV Impulsados por Modelos Grandes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo aéreo no tripulado
Enjambres
Aprendizaje por refuerzo multiagente
Programación de recursos
Compartición de parámetros
Mecanismos de entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los enjambres heterogéneos de vehículos aéreos no tripulados (UAV) se están convirtiendo en componentes críticos de las redes no terrestres de próxima generación, permitiendo tareas como el relevo de comunicación, la monitorización del espectro, la detección cooperativa y la navegación. Sin embargo, su heterogeneidad y multifuncionalidad traen desafíos severos en la asignación de tareas y la programación de recursos, donde los métodos tradicionales de aprendizaje por refuerzo multiagente a menudo sufren de alta complejidad algorítmica, largos tiempos de entrenamiento y dificultades de implementación en nodos con recursos limitados. Para abordar estos problemas, este artículo propone un marco de trabajo de actor-crítico suave multiagente de baja complejidad (MASAC) que combina el intercambio de parámetros (actor compartido con incrustaciones de dispositivo y críticos gemelos de columna vertebral compartidos), un diseño de red ligero (MLP residual de ancho fijo con normalización) y mecanismos de entrenamiento robustos (actualizaciones de críticos gemelos de mínimo sesgo y programación de entropía) dentro del paradigma CTDE. Los resultados de simulación muestran que el marco propuesto logra más de 14 veces de compresión de parámetros y más de un 93% de reducción en el tiempo de entrenamiento, manteniendo o mejorando el rendimiento en términos de la función de utilidad de retraso-energía. Estos avances reducen sustancialmente la sobrecarga computacional y aceleran la convergencia, proporcionando un camino práctico para implementar el aprendizaje por refuerzo multiagente en clústeres heterogéneos de UAV a gran escala y apoyando diversos escenarios de misión bajo estrictas limitaciones de recursos y latencia.
Descripción
Los enjambres heterogéneos de vehículos aéreos no tripulados (UAV) se están convirtiendo en componentes críticos de las redes no terrestres de próxima generación, permitiendo tareas como el relevo de comunicación, la monitorización del espectro, la detección cooperativa y la navegación. Sin embargo, su heterogeneidad y multifuncionalidad traen desafíos severos en la asignación de tareas y la programación de recursos, donde los métodos tradicionales de aprendizaje por refuerzo multiagente a menudo sufren de alta complejidad algorítmica, largos tiempos de entrenamiento y dificultades de implementación en nodos con recursos limitados. Para abordar estos problemas, este artículo propone un marco de trabajo de actor-crítico suave multiagente de baja complejidad (MASAC) que combina el intercambio de parámetros (actor compartido con incrustaciones de dispositivo y críticos gemelos de columna vertebral compartidos), un diseño de red ligero (MLP residual de ancho fijo con normalización) y mecanismos de entrenamiento robustos (actualizaciones de críticos gemelos de mínimo sesgo y programación de entropía) dentro del paradigma CTDE. Los resultados de simulación muestran que el marco propuesto logra más de 14 veces de compresión de parámetros y más de un 93% de reducción en el tiempo de entrenamiento, manteniendo o mejorando el rendimiento en términos de la función de utilidad de retraso-energía. Estos avances reducen sustancialmente la sobrecarga computacional y aceleran la convergencia, proporcionando un camino práctico para implementar el aprendizaje por refuerzo multiagente en clústeres heterogéneos de UAV a gran escala y apoyando diversos escenarios de misión bajo estrictas limitaciones de recursos y latencia.