Optimización de la Eficiencia Computacional para la Detección, Computación y Comunicación Integradas Habilitadas por UAV: Un Enfoque de Aprendizaje por Refuerzo Profundo Basado en Memoria
Autores: Qi, Honghao; Wu, Muqing
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Optimización de la Eficiencia Computacional para la Detección, Computación y Comunicación Integradas Habilitadas por UAV: Un Enfoque de Aprendizaje por Refuerzo Profundo Basado en Memoria
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Funcionalidad ISCC
Operación eficiente en energía
VANT
Aprendizaje profundo por refuerzo
Diseño de trayectorias basado en LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (VANT) han surgido como una plataforma prometedora para apoyar la funcionalidad de detección, computación y comunicación integrada (ISCC) en aplicaciones de Internet de las Cosas (IoT). Este documento investiga una red ISCC habilitada por VANT, donde el VANT realiza detección por radar y computación en la nube a bordo con la asistencia computacional de puntos de acceso (AP) en tierra. Dada la limitada energía a bordo, garantizar un funcionamiento eficiente en términos de energía de los VANT es crucial para apoyar la sostenibilidad a largo plazo del rendimiento de la red. En este documento, definimos la eficiencia computacional como la relación entre el número total de bits computacionales procesados con éxito y el consumo total de energía del VANT, bajo la restricción de un umbral de detección requerido. Para maximizar este indicador de rendimiento, este documento optimiza conjuntamente el vector de formación de haces, la frecuencia de la CPU y la trayectoria del VANT. Este problema de optimización se modela como un proceso de decisión de Markov (MDP) y se resuelve utilizando un enfoque de aprendizaje por refuerzo profundo (DRL) basado en un mecanismo de memoria. Específicamente, se propone un algoritmo de diseño de trayectoria y asignación de recursos basado en memoria a largo y corto plazo (LSTM) y en el gradiente determinista de política retrasada doble (TD3) (LTTDRA). Las unidades LSTM se integran en el actor y el crítico para capturar eficazmente las correlaciones temporales en entornos dinámicos, mejorando así la estabilidad de la política y acelerando la convergencia del algoritmo. La función de recompensa se diseña meticulosamente para aliviar los efectos de penalización escasa y aprender estrategias de alto rendimiento en entornos complejos con múltiples restricciones. Se realizan simulaciones extensas bajo diversas configuraciones y escenarios de red, y los resultados indican consistentemente que el enfoque propuesto supera sustancialmente a los esquemas de referencia.
Descripción
Los vehículos aéreos no tripulados (VANT) han surgido como una plataforma prometedora para apoyar la funcionalidad de detección, computación y comunicación integrada (ISCC) en aplicaciones de Internet de las Cosas (IoT). Este documento investiga una red ISCC habilitada por VANT, donde el VANT realiza detección por radar y computación en la nube a bordo con la asistencia computacional de puntos de acceso (AP) en tierra. Dada la limitada energía a bordo, garantizar un funcionamiento eficiente en términos de energía de los VANT es crucial para apoyar la sostenibilidad a largo plazo del rendimiento de la red. En este documento, definimos la eficiencia computacional como la relación entre el número total de bits computacionales procesados con éxito y el consumo total de energía del VANT, bajo la restricción de un umbral de detección requerido. Para maximizar este indicador de rendimiento, este documento optimiza conjuntamente el vector de formación de haces, la frecuencia de la CPU y la trayectoria del VANT. Este problema de optimización se modela como un proceso de decisión de Markov (MDP) y se resuelve utilizando un enfoque de aprendizaje por refuerzo profundo (DRL) basado en un mecanismo de memoria. Específicamente, se propone un algoritmo de diseño de trayectoria y asignación de recursos basado en memoria a largo y corto plazo (LSTM) y en el gradiente determinista de política retrasada doble (TD3) (LTTDRA). Las unidades LSTM se integran en el actor y el crítico para capturar eficazmente las correlaciones temporales en entornos dinámicos, mejorando así la estabilidad de la política y acelerando la convergencia del algoritmo. La función de recompensa se diseña meticulosamente para aliviar los efectos de penalización escasa y aprender estrategias de alto rendimiento en entornos complejos con múltiples restricciones. Se realizan simulaciones extensas bajo diversas configuraciones y escenarios de red, y los resultados indican consistentemente que el enfoque propuesto supera sustancialmente a los esquemas de referencia.