Método de compresión de Q-table generalmente aplicable y su aplicación para problemas de optimización de recorrido estocástico en grafos con restricciones
Autores: Kegyes, Tamás; Kummer, Alex; Süle, Zoltán; Abonyi, János
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Método de compresión de Q-table generalmente aplicable y su aplicación para problemas de optimización de recorrido estocástico en grafos con restricciones
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Problemas de recorrido de grafos
Problemas de búsqueda del camino más corto con restricciones
Problemas de optimización de enteros mixtos
Aprendizaje por refuerzo
Método de compresión de tabla Q
Recorrido estocástico de grafos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Analizamos una clase especial de problemas de recorrido de grafos, donde las distancias son estocásticas y el agente está restringido a tomar un rango limitado en una sola vez. Mostramos que tanto los problemas de búsqueda del camino hamiltoniano más corto restringido como los problemas de balanceo de líneas de desensamble pertenecen a la clase de problemas de búsqueda de caminos más cortos restringidos, que pueden ser representados como problemas de optimización de enteros mixtos. Los métodos de aprendizaje por refuerzo (RL) han demostrado su eficiencia en múltiples problemas complejos. Sin embargo, los investigadores concluyeron que el tiempo de aprendizaje aumenta radicalmente al crecer los espacios de estado y acción. En casos continuos, se utilizan técnicas de aproximación, pero estos métodos tienen varias limitaciones en espacios de búsqueda de enteros mixtos. Presentamos el método de compresión de la tabla Q como un método de múltiples pasos con reducción de dimensiones, fusión de estados y técnicas de compresión de espacio que proyectan un problema de optimización de enteros mixtos en uno discreto. El agente de RL se entrena luego utilizando un método basado en valores Q extendidos para ofrecer un modelo interpretable por humanos para la selección óptima de acciones. Nuestro enfoque fue probado en casos de uso seleccionados de recorrido de grafos estocásticos restringidos, y se muestran resultados comparativos con el método de discretización simple basado en cuadrículas.
Descripción
Analizamos una clase especial de problemas de recorrido de grafos, donde las distancias son estocásticas y el agente está restringido a tomar un rango limitado en una sola vez. Mostramos que tanto los problemas de búsqueda del camino hamiltoniano más corto restringido como los problemas de balanceo de líneas de desensamble pertenecen a la clase de problemas de búsqueda de caminos más cortos restringidos, que pueden ser representados como problemas de optimización de enteros mixtos. Los métodos de aprendizaje por refuerzo (RL) han demostrado su eficiencia en múltiples problemas complejos. Sin embargo, los investigadores concluyeron que el tiempo de aprendizaje aumenta radicalmente al crecer los espacios de estado y acción. En casos continuos, se utilizan técnicas de aproximación, pero estos métodos tienen varias limitaciones en espacios de búsqueda de enteros mixtos. Presentamos el método de compresión de la tabla Q como un método de múltiples pasos con reducción de dimensiones, fusión de estados y técnicas de compresión de espacio que proyectan un problema de optimización de enteros mixtos en uno discreto. El agente de RL se entrena luego utilizando un método basado en valores Q extendidos para ofrecer un modelo interpretable por humanos para la selección óptima de acciones. Nuestro enfoque fue probado en casos de uso seleccionados de recorrido de grafos estocásticos restringidos, y se muestran resultados comparativos con el método de discretización simple basado en cuadrículas.