Trade-offs en problemas de navegación utilizando métodos basados en el valor

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Trade-offs en problemas de navegación utilizando métodos basados en el valor

Autores: Csereoka, Petra; Micea, Mihai V.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Trade-offs en problemas de navegación utilizando métodos basados en el valor

Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Redes Q profundos

DQN

Rendimiento

Arquitectura

Entrenamiento

Escenarios

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

Las redes Deep Q-Networks (DQNs) han mostrado resultados notables en la última década en escenarios que van desde simples episodios cortos completamente observables en 2D hasta tareas parcialmente observables, intensivas gráficamente y complejas. Sin embargo, la arquitectura base de un DQN básico presenta varias deficiencias, algunas de las cuales fueron mitigadas por nuevas variantes que se centran en una mayor estabilidad, convergencia más rápida y dependencias temporales. Estas adiciones, por otro lado, conllevan costos adicionales en términos de memoria requerida y tiempos de entrenamiento más largos. En este documento, analizamos el rendimiento de las familias de DQN de última generación en una simple misión parcialmente observable creada en Minecraft y tratamos de determinar la arquitectura óptima para tales clases de problemas en términos de costo y precisión. Hasta donde sabemos, los métodos analizados no han sido probados en el mismo escenario antes, por lo que se requiere una comparación más profunda para comprender mejor la mejora real de rendimiento que proporcionan. Este manuscrito también ofrece una descripción detallada de los métodos DQN de última generación, junto con las heurísticas de entrenamiento y las métricas de rendimiento registradas durante la misión propuesta, lo que permite a los investigadores seleccionar modelos más adecuados para resolver problemas futuros. Nuestros experimentos muestran que las redes Double DQN son capaces de manejar escenarios parcialmente observables de manera elegante manteniendo una huella de hardware baja, los DQNs doble recurrentes pueden ser una buena opción incluso cuando los recursos deben ser limitados, y los DQNs de doble duelo son un punto medio de alto rendimiento en términos de su costo y rendimiento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro