logo móvil
Contáctanos

Análisis de aprendizaje por refuerzo impulsado por objetivos explicables en un entorno simulado continuo

Autores: Portugal, Ernesto; Cruz, Francisco; Ayala, Angel; Fernandes, Bruno

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Análisis de aprendizaje por refuerzo impulsado por objetivos explicables en un entorno simulado continuo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Inteligencia artificial
Aprendizaje orientado a objetivos
Explicativo
Adaptabilidad
Entornos continuos
Red Q Profunda

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
Actualmente, la inteligencia artificial se encuentra en un importante período de crecimiento. Debido al auge de la tecnología, ahora es posible resolver problemas que antes no se podían resolver. Por ejemplo, a través del aprendizaje orientado a metas, es posible que máquinas o agentes inteligentes puedan realizar tareas sin intervención humana. Sin embargo, esto también conlleva el problema de comprender la toma de decisiones del agente. Por lo tanto, el aprendizaje orientado a metas explicativo intenta eliminar esta brecha. Este trabajo se centra en la adaptabilidad de dos métodos de explicabilidad en entornos continuos. Los métodos basados en el aprendizaje y la introspección propusieron un valor de probabilidad de éxito para explicar el comportamiento del agente. Estos ya habían sido probados en entornos discretos. El entorno continuo utilizado en este estudio es el problema de carreras de coches. Este es un juego de carreras de coches simulado que forma parte de la biblioteca Python Open AI Gym. Los agentes en este entorno fueron entrenados con el algoritmo Deep Q-Network, y paralelamente se implementaron los métodos de explicabilidad. Esta investigación incluyó una propuesta para llevar a cabo la adaptación e implementación de estos métodos en estados continuos. La adaptación del método de aprendizaje produjo cambios importantes, implementados a través de una red neuronal artificial. Las probabilidades obtenidas de ambos métodos fueron consistentes a lo largo de los experimentos. El resultado de probabilidad fue mayor en el método de aprendizaje. En cuanto a los recursos computacionales, el método de introspección fue ligeramente mejor que su contraparte.

Otros recursos que podrían interesarte

Temas Virtualpro