Un marco de pruebas de penetración automatizado basado en aprendizaje por refuerzo jerárquico
Autores: Liu, Hongri; Liu, Chuhan; Wu, Xiansheng; Qu, Yun; Liu, Hongmei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un marco de pruebas de penetración automatizado basado en aprendizaje por refuerzo jerárquico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Espacio de acción amplio
Aprendizaje por refuerzo
Pruebas de penetración
Aprendizaje por refuerzo jerárquico
Inteligencia de red
Inteligencia de host
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
Dado el gran espacio de acción y espacio de estado involucrado en pruebas de penetración, el aprendizaje por refuerzo se aplica ampliamente para mejorar la eficiencia de las pruebas. Este documento propone un esquema automático de pruebas de penetración basado en aprendizaje por refuerzo jerárquico para reducir tanto el espacio de acción como el espacio de estado. El esquema incluye una inteligencia de red responsable de especificar el host de penetración y una inteligencia de host designada para realizar pruebas de penetración en el host seleccionado. Específicamente, dentro de la inteligencia de red, se adopta un mecanismo de enmascaramiento de acciones para proteger las acciones no habilitadas, reduciendo así el espacio de acción explorable y mejorando la eficiencia de las pruebas de penetración. Además, la inteligencia de host emplea un mecanismo de discriminación inválido, terminando las pruebas después de acciones que no alteran los estados del sistema, evitando así aumentos repentinos en el número de pasos de entrenamiento de la red neuronal para una acción. También se introduce un mecanismo de estimación optimista para seleccionar estrategias de penetración adecuadas para varios hosts, evitando bloqueos de entrenamiento debido a la confusión de valores entre diferentes hosts. Experimentos de ablación demuestran que la inteligencia de host puede aprender diferentes estrategias de penetración para diferentes profundidades de penetración sin fluctuaciones significativas en los pasos de entrenamiento, y la inteligencia de red puede coordinarse con la inteligencia de host para realizar la penetración de red de manera constante. Este marco de aprendizaje por refuerzo jerárquico puede detectar vulnerabilidades de red de manera más rápida y precisa, reduciendo significativamente el costo de las actualizaciones de políticas de seguridad.
Descripción
Dado el gran espacio de acción y espacio de estado involucrado en pruebas de penetración, el aprendizaje por refuerzo se aplica ampliamente para mejorar la eficiencia de las pruebas. Este documento propone un esquema automático de pruebas de penetración basado en aprendizaje por refuerzo jerárquico para reducir tanto el espacio de acción como el espacio de estado. El esquema incluye una inteligencia de red responsable de especificar el host de penetración y una inteligencia de host designada para realizar pruebas de penetración en el host seleccionado. Específicamente, dentro de la inteligencia de red, se adopta un mecanismo de enmascaramiento de acciones para proteger las acciones no habilitadas, reduciendo así el espacio de acción explorable y mejorando la eficiencia de las pruebas de penetración. Además, la inteligencia de host emplea un mecanismo de discriminación inválido, terminando las pruebas después de acciones que no alteran los estados del sistema, evitando así aumentos repentinos en el número de pasos de entrenamiento de la red neuronal para una acción. También se introduce un mecanismo de estimación optimista para seleccionar estrategias de penetración adecuadas para varios hosts, evitando bloqueos de entrenamiento debido a la confusión de valores entre diferentes hosts. Experimentos de ablación demuestran que la inteligencia de host puede aprender diferentes estrategias de penetración para diferentes profundidades de penetración sin fluctuaciones significativas en los pasos de entrenamiento, y la inteligencia de red puede coordinarse con la inteligencia de host para realizar la penetración de red de manera constante. Este marco de aprendizaje por refuerzo jerárquico puede detectar vulnerabilidades de red de manera más rápida y precisa, reduciendo significativamente el costo de las actualizaciones de políticas de seguridad.