Optimizado extracción de características para aprendizaje profundo reforzado eficiente con muestras
Autores: Li, Yuangang; Guo, Tao; Li, Qinghua; Liu, Xinyue
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Optimizado extracción de características para aprendizaje profundo reforzado eficiente con muestras
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje por refuerzo
Exploración del agente
Módulo de extracción de características
Recompensas intrínsecas
Paradigma de entrenamiento de agente auxiliar
Eficiencia de muestra
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
En el aprendizaje profundo por refuerzo, la exploración del agente aún tiene ciertas limitaciones, mientras que una exploración de baja eficiencia conduce aún más al problema de baja eficiencia de muestra. Para resolver el dilema de la exploración causado por la interferencia del ruido blanco y el problema del descarrilamiento de la separación en el entorno, presentamos un enfoque innovador al introducir un módulo de extracción de características intrincadamente elaborado para aprovechar los errores predictivos, generar recompensas intrínsecas y utilizar un paradigma de entrenamiento de agente auxiliar que resuelve efectivamente los problemas mencionados y mejora significativamente la capacidad del agente para explorar de manera integral en entornos caracterizados por una distribución de recompensas escasa. La eficacia del módulo de extracción de características optimizado se sustenta a través de experimentos comparativos realizados en escenarios de problemas de exploración arduos comúnmente empleados en investigaciones de aprendizaje por refuerzo. Además, se lleva a cabo un análisis de rendimiento exhaustivo de nuestro método en el distinguido entorno experimental de Atari 2600, lo que arroja avances notables en el rendimiento y muestra la obtención de resultados superiores en seis entornos experimentales seleccionados.
Descripción
En el aprendizaje profundo por refuerzo, la exploración del agente aún tiene ciertas limitaciones, mientras que una exploración de baja eficiencia conduce aún más al problema de baja eficiencia de muestra. Para resolver el dilema de la exploración causado por la interferencia del ruido blanco y el problema del descarrilamiento de la separación en el entorno, presentamos un enfoque innovador al introducir un módulo de extracción de características intrincadamente elaborado para aprovechar los errores predictivos, generar recompensas intrínsecas y utilizar un paradigma de entrenamiento de agente auxiliar que resuelve efectivamente los problemas mencionados y mejora significativamente la capacidad del agente para explorar de manera integral en entornos caracterizados por una distribución de recompensas escasa. La eficacia del módulo de extracción de características optimizado se sustenta a través de experimentos comparativos realizados en escenarios de problemas de exploración arduos comúnmente empleados en investigaciones de aprendizaje por refuerzo. Además, se lleva a cabo un análisis de rendimiento exhaustivo de nuestro método en el distinguido entorno experimental de Atari 2600, lo que arroja avances notables en el rendimiento y muestra la obtención de resultados superiores en seis entornos experimentales seleccionados.