logo móvil
Contáctanos

Optimizando la efectividad de la defensa de objetivos en movimiento en un grafo de ataque probabilístico: un enfoque de aprendizaje profundo por refuerzo

Autores: Li, Qiuxiang; Wu, Jianping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Optimizando la efectividad de la defensa de objetivos en movimiento en un grafo de ataque probabilístico: un enfoque de aprendizaje profundo por refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Defensa de objetivo móvil
Tecnología
Ataques
Costos de implementación
Sobrecarga de rendimiento
Grafo de ataque

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
La tecnología de defensa de objetivo móvil (MTD) desconcierta a los posibles ataques al cambiar dinámicamente el software en uso y/o su configuración mientras mantiene los estados de ejecución de la aplicación. Sin embargo, incurre en un costo de implementación y varios costos de rendimiento, degradando el rendimiento. Un grafo de ataque es capaz de evaluar el equilibrio entre la efectividad y el costo de una implementación de MTD. En este estudio, consideramos un escenario de red en el que cada nodo en el grafo de ataque puede implementar la tecnología MTD. Nuestro objetivo es lograr la optimización de la efectividad de la implementación de MTD (MTD-DO) en términos de minimizar la pérdida de seguridad de la red bajo un presupuesto limitado. Los trabajos relacionados existentes solo consideraron un nodo para implementar un MTD o ignoraron el costo de implementación. Primero establecemos una formulación no lineal de MTD-DO. Luego, se desarrollan dos algoritmos basados en aprendizaje profundo de refuerzo, a saber, aprendizaje profundo Q (DQN) y optimización de política proximal (PPO). Además, se definen dos métricas para evaluar efectivamente los algoritmos de MTD-DO con diferentes escalas de red y presupuestos. Los resultados experimentales indican que tanto los algoritmos basados en PPO como en DQN funcionan mejor que los algoritmos basados en Q-learning y aleatorios. El algoritmo basado en DQN converge más rápidamente y tiene un rendimiento, en términos de recompensa, ligeramente mejor que el algoritmo basado en PPO.

Otros recursos que podrían interesarte

Temas Virtualpro