Aprendizaje por refuerzo guiado por restricciones de seguridad con lógica temporal lineal
Autores: Kwon, Ryeonggu; Kwon, Gihwon
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Aprendizaje por refuerzo guiado por restricciones de seguridad con lógica temporal lineal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Aprendizaje por refuerzo
Seguridad
Rendimiento
Restricciones de lógica temporal
Verificación formal
Algoritmos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
En el contexto del aprendizaje por refuerzo (RL), garantizar tanto la seguridad como el rendimiento es crucial, especialmente en escenarios del mundo real donde los errores pueden llevar a consecuencias severas. Este estudio tiene como objetivo abordar este desafío integrando restricciones de lógica temporal en los algoritmos de RL, proporcionando así un mecanismo formal para la verificación de seguridad. Empleamos una combinación de métodos teóricos y empíricos, incluyendo el uso de lógica temporal para la verificación formal y simulaciones extensas para validar nuestro enfoque. Nuestros resultados demuestran que el método propuesto no solo mantiene altos niveles de seguridad, sino que también logra un rendimiento comparable al de los algoritmos de RL tradicionales. Es importante destacar que nuestro enfoque llena un vacío crítico en la literatura existente al ofrecer una solución que es tanto matemáticamente rigurosa como empíricamente validada. El estudio concluye que la integración de la lógica temporal en el RL ofrece una vía prometedora para desarrollar algoritmos que sean tanto seguros como eficientes. Este trabajo sienta las bases para futuras investigaciones destinadas a generalizar este enfoque a varios sistemas y aplicaciones complejas.
Descripción
En el contexto del aprendizaje por refuerzo (RL), garantizar tanto la seguridad como el rendimiento es crucial, especialmente en escenarios del mundo real donde los errores pueden llevar a consecuencias severas. Este estudio tiene como objetivo abordar este desafío integrando restricciones de lógica temporal en los algoritmos de RL, proporcionando así un mecanismo formal para la verificación de seguridad. Empleamos una combinación de métodos teóricos y empíricos, incluyendo el uso de lógica temporal para la verificación formal y simulaciones extensas para validar nuestro enfoque. Nuestros resultados demuestran que el método propuesto no solo mantiene altos niveles de seguridad, sino que también logra un rendimiento comparable al de los algoritmos de RL tradicionales. Es importante destacar que nuestro enfoque llena un vacío crítico en la literatura existente al ofrecer una solución que es tanto matemáticamente rigurosa como empíricamente validada. El estudio concluye que la integración de la lógica temporal en el RL ofrece una vía prometedora para desarrollar algoritmos que sean tanto seguros como eficientes. Este trabajo sienta las bases para futuras investigaciones destinadas a generalizar este enfoque a varios sistemas y aplicaciones complejas.