logo móvil
Contáctanos

Optimización de la Eficiencia Computacional para la Detección, Computación y Comunicación Integradas Habilitadas por UAV: Un Enfoque de Aprendizaje por Refuerzo Profundo Basado en Memoria

Autores: Qi, Honghao; Wu, Muqing

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Optimización de la Eficiencia Computacional para la Detección, Computación y Comunicación Integradas Habilitadas por UAV: Un Enfoque de Aprendizaje por Refuerzo Profundo Basado en Memoria


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Funcionalidad ISCC
Operación eficiente en energía
VANT
Aprendizaje profundo por refuerzo
Diseño de trayectorias basado en LSTM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los vehículos aéreos no tripulados (VANT) han surgido como una plataforma prometedora para apoyar la funcionalidad de detección, computación y comunicación integrada (ISCC) en aplicaciones de Internet de las Cosas (IoT). Este documento investiga una red ISCC habilitada por VANT, donde el VANT realiza detección por radar y computación en la nube a bordo con la asistencia computacional de puntos de acceso (AP) en tierra. Dada la limitada energía a bordo, garantizar un funcionamiento eficiente en términos de energía de los VANT es crucial para apoyar la sostenibilidad a largo plazo del rendimiento de la red. En este documento, definimos la eficiencia computacional como la relación entre el número total de bits computacionales procesados con éxito y el consumo total de energía del VANT, bajo la restricción de un umbral de detección requerido. Para maximizar este indicador de rendimiento, este documento optimiza conjuntamente el vector de formación de haces, la frecuencia de la CPU y la trayectoria del VANT. Este problema de optimización se modela como un proceso de decisión de Markov (MDP) y se resuelve utilizando un enfoque de aprendizaje por refuerzo profundo (DRL) basado en un mecanismo de memoria. Específicamente, se propone un algoritmo de diseño de trayectoria y asignación de recursos basado en memoria a largo y corto plazo (LSTM) y en el gradiente determinista de política retrasada doble (TD3) (LTTDRA). Las unidades LSTM se integran en el actor y el crítico para capturar eficazmente las correlaciones temporales en entornos dinámicos, mejorando así la estabilidad de la política y acelerando la convergencia del algoritmo. La función de recompensa se diseña meticulosamente para aliviar los efectos de penalización escasa y aprender estrategias de alto rendimiento en entornos complejos con múltiples restricciones. Se realizan simulaciones extensas bajo diversas configuraciones y escenarios de red, y los resultados indican consistentemente que el enfoque propuesto supera sustancialmente a los esquemas de referencia.

Otros recursos que podrían interesarte

Temas Virtualpro