logo móvil
Contáctanos

Un marco de pruebas de penetración automatizado basado en aprendizaje por refuerzo jerárquico

Autores: Liu, Hongri; Liu, Chuhan; Wu, Xiansheng; Qu, Yun; Liu, Hongmei

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un marco de pruebas de penetración automatizado basado en aprendizaje por refuerzo jerárquico


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Espacio de acción amplio
Aprendizaje por refuerzo
Pruebas de penetración
Aprendizaje por refuerzo jerárquico
Inteligencia de red
Inteligencia de host

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 41

Citaciones: Sin citaciones


Descripción
Dado el gran espacio de acción y espacio de estado involucrado en pruebas de penetración, el aprendizaje por refuerzo se aplica ampliamente para mejorar la eficiencia de las pruebas. Este documento propone un esquema automático de pruebas de penetración basado en aprendizaje por refuerzo jerárquico para reducir tanto el espacio de acción como el espacio de estado. El esquema incluye una inteligencia de red responsable de especificar el host de penetración y una inteligencia de host designada para realizar pruebas de penetración en el host seleccionado. Específicamente, dentro de la inteligencia de red, se adopta un mecanismo de enmascaramiento de acciones para proteger las acciones no habilitadas, reduciendo así el espacio de acción explorable y mejorando la eficiencia de las pruebas de penetración. Además, la inteligencia de host emplea un mecanismo de discriminación inválido, terminando las pruebas después de acciones que no alteran los estados del sistema, evitando así aumentos repentinos en el número de pasos de entrenamiento de la red neuronal para una acción. También se introduce un mecanismo de estimación optimista para seleccionar estrategias de penetración adecuadas para varios hosts, evitando bloqueos de entrenamiento debido a la confusión de valores entre diferentes hosts. Experimentos de ablación demuestran que la inteligencia de host puede aprender diferentes estrategias de penetración para diferentes profundidades de penetración sin fluctuaciones significativas en los pasos de entrenamiento, y la inteligencia de red puede coordinarse con la inteligencia de host para realizar la penetración de red de manera constante. Este marco de aprendizaje por refuerzo jerárquico puede detectar vulnerabilidades de red de manera más rápida y precisa, reduciendo significativamente el costo de las actualizaciones de políticas de seguridad.

Otros recursos que podrían interesarte

Temas Virtualpro