Trade-offs en problemas de navegación utilizando métodos basados en el valor
Autores: Csereoka, Petra; Micea, Mihai V.
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Trade-offs en problemas de navegación utilizando métodos basados en el valor
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Redes Q profundos
DQN
Rendimiento
Arquitectura
Entrenamiento
Escenarios
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Las redes Deep Q-Networks (DQNs) han mostrado resultados notables en la última década en escenarios que van desde simples episodios cortos completamente observables en 2D hasta tareas parcialmente observables, intensivas gráficamente y complejas. Sin embargo, la arquitectura base de un DQN básico presenta varias deficiencias, algunas de las cuales fueron mitigadas por nuevas variantes que se centran en una mayor estabilidad, convergencia más rápida y dependencias temporales. Estas adiciones, por otro lado, conllevan costos adicionales en términos de memoria requerida y tiempos de entrenamiento más largos. En este documento, analizamos el rendimiento de las familias de DQN de última generación en una simple misión parcialmente observable creada en Minecraft y tratamos de determinar la arquitectura óptima para tales clases de problemas en términos de costo y precisión. Hasta donde sabemos, los métodos analizados no han sido probados en el mismo escenario antes, por lo que se requiere una comparación más profunda para comprender mejor la mejora real de rendimiento que proporcionan. Este manuscrito también ofrece una descripción detallada de los métodos DQN de última generación, junto con las heurísticas de entrenamiento y las métricas de rendimiento registradas durante la misión propuesta, lo que permite a los investigadores seleccionar modelos más adecuados para resolver problemas futuros. Nuestros experimentos muestran que las redes Double DQN son capaces de manejar escenarios parcialmente observables de manera elegante manteniendo una huella de hardware baja, los DQNs doble recurrentes pueden ser una buena opción incluso cuando los recursos deben ser limitados, y los DQNs de doble duelo son un punto medio de alto rendimiento en términos de su costo y rendimiento.
Descripción
Las redes Deep Q-Networks (DQNs) han mostrado resultados notables en la última década en escenarios que van desde simples episodios cortos completamente observables en 2D hasta tareas parcialmente observables, intensivas gráficamente y complejas. Sin embargo, la arquitectura base de un DQN básico presenta varias deficiencias, algunas de las cuales fueron mitigadas por nuevas variantes que se centran en una mayor estabilidad, convergencia más rápida y dependencias temporales. Estas adiciones, por otro lado, conllevan costos adicionales en términos de memoria requerida y tiempos de entrenamiento más largos. En este documento, analizamos el rendimiento de las familias de DQN de última generación en una simple misión parcialmente observable creada en Minecraft y tratamos de determinar la arquitectura óptima para tales clases de problemas en términos de costo y precisión. Hasta donde sabemos, los métodos analizados no han sido probados en el mismo escenario antes, por lo que se requiere una comparación más profunda para comprender mejor la mejora real de rendimiento que proporcionan. Este manuscrito también ofrece una descripción detallada de los métodos DQN de última generación, junto con las heurísticas de entrenamiento y las métricas de rendimiento registradas durante la misión propuesta, lo que permite a los investigadores seleccionar modelos más adecuados para resolver problemas futuros. Nuestros experimentos muestran que las redes Double DQN son capaces de manejar escenarios parcialmente observables de manera elegante manteniendo una huella de hardware baja, los DQNs doble recurrentes pueden ser una buena opción incluso cuando los recursos deben ser limitados, y los DQNs de doble duelo son un punto medio de alto rendimiento en términos de su costo y rendimiento.