Pseudo random number generation a través de aprendizaje por refuerzo y redes neuronales recurrentes
Autores: Pasqualini, Luca; Parton, Maurizio
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Pseudo random number generation a través de aprendizaje por refuerzo y redes neuronales recurrentes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Generador de números pseudoaleatorios
PRNG
Criptografía
Conjuntos de pruebas
Aprendizaje por refuerzo
Arquitectura LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Un Generador de Números Pseudoaleatorios (PRNG) es cualquier algoritmo que genera una secuencia de números que aproxima las propiedades de los números aleatorios. Estos números son ampliamente utilizados en criptografía de nivel medio y en aplicaciones de software. Las pruebas se utilizan para evaluar la calidad de los PRNGs mediante la verificación de propiedades estadísticas de las secuencias generadas. Estas secuencias suelen representarse bit a bit. Este documento propone un enfoque de Aprendizaje por Refuerzo (RL) para la tarea de generar PRNGs desde cero mediante el aprendizaje de una política para resolver un Proceso de Decisión de Markov (MDP) parcialmente observable, donde el estado completo es el período de la secuencia generada, y la observación en cada paso de tiempo es la última secuencia de bits añadida a dichos estados. Utilizamos la arquitectura de Memoria a Corto y Largo Plazo (LSTM) para modelar la relación temporal entre observaciones en diferentes pasos de tiempo al encomendar a la memoria LSTM la extracción de características significativas de la porción oculta de los estados del MDP. Mostramos que modelar un PRNG con un MDP parcialmente observable y una arquitectura LSTM mejora en gran medida los resultados del enfoque de RL de avance hacia adelante completamente observable presentado en trabajos anteriores.
Descripción
Un Generador de Números Pseudoaleatorios (PRNG) es cualquier algoritmo que genera una secuencia de números que aproxima las propiedades de los números aleatorios. Estos números son ampliamente utilizados en criptografía de nivel medio y en aplicaciones de software. Las pruebas se utilizan para evaluar la calidad de los PRNGs mediante la verificación de propiedades estadísticas de las secuencias generadas. Estas secuencias suelen representarse bit a bit. Este documento propone un enfoque de Aprendizaje por Refuerzo (RL) para la tarea de generar PRNGs desde cero mediante el aprendizaje de una política para resolver un Proceso de Decisión de Markov (MDP) parcialmente observable, donde el estado completo es el período de la secuencia generada, y la observación en cada paso de tiempo es la última secuencia de bits añadida a dichos estados. Utilizamos la arquitectura de Memoria a Corto y Largo Plazo (LSTM) para modelar la relación temporal entre observaciones en diferentes pasos de tiempo al encomendar a la memoria LSTM la extracción de características significativas de la porción oculta de los estados del MDP. Mostramos que modelar un PRNG con un MDP parcialmente observable y una arquitectura LSTM mejora en gran medida los resultados del enfoque de RL de avance hacia adelante completamente observable presentado en trabajos anteriores.