logo móvil
Contáctanos

Aprendizaje por refuerzo multiagente robusto para sistemas de UAV: Contrarrestando ataques bizantinos

Autores: Medhi, Jishu K.; Liu, Rui; Wang, Qianlong; Chen, Xuhui

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Aprendizaje por refuerzo multiagente robusto para sistemas de UAV: Contrarrestando ataques bizantinos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Vehículo aéreo no tripulado
Aprendizaje por refuerzo multiagente
Adversario bizantino
Algoritmo MARL
Privacidad
Seguridad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los sistemas de vehículos aéreos no tripulados (multi-UAV) han ganado una atención significativa en aplicaciones como la vigilancia aérea y las misiones de búsqueda y rescate. Con el reciente desarrollo de algoritmos de aprendizaje por refuerzo multiagente de última generación (MARL), es posible entrenar sistemas multi-UAV en entornos colaborativos y competitivos. Sin embargo, las vulnerabilidades inherentes de los sistemas multiagente plantean riesgos significativos de privacidad y seguridad al implementar algoritmos MARL generales y convencionales. La presencia de incluso un solo adversario bizantino dentro del sistema puede degradar severamente el rendimiento de aprendizaje de los agentes UAV. Este trabajo propone un algoritmo MARL resistente a ataques bizantinos que aprovecha una combinación de consenso de mediana geométrica y un modelo de actualización de estado robusto para mitigar, o incluso eliminar, la influencia de los ataques bizantinos. Para validar su efectividad y viabilidad, los autores incluyen un modelo de amenaza multi-UAV, proporcionan una garantía de robustez e investigan parámetros clave de ataque para múltiples escenarios de navegación UAV. Los resultados de los experimentos muestran que las recompensas promedio durante un ataque bizantino aumentaron hasta un 60% para el escenario de navegación cooperativa en comparación con las técnicas MARL convencionales. Las recompensas de aprendizaje generadas por los algoritmos de referencia no pudieron converger durante el entrenamiento bajo estos ataques, mientras que el método propuesto convergió efectivamente a una solución óptima, demostrando su viabilidad y corrección.

Otros recursos que podrían interesarte

Temas Virtualpro