Generación autoregresiva de soluciones de optimización combinatoria en un solo paso basada en la arquitectura de modelos de lenguaje grandes y algoritmos de aprendizaje
Autores: Ghimire, Bishad; Mahmood, Ausif; Elleithy, Khaled
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Generación autoregresiva de soluciones de optimización combinatoria en un solo paso basada en la arquitectura de modelos de lenguaje grandes y algoritmos de aprendizaje
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Modelos de lenguaje
Inteligencia artificial
Arquitectura de transformadores
Entrenamiento autoregresivo
Optimización combinatoria
Problema del vendedor viajero
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Los Modelos de Lenguaje Grandes (LLMs) han avanzado inmensamente en el campo de la Inteligencia Artificial (IA), con modelos recientes capaces de realizar razonamiento en cadena y resolver problemas matemáticos complejos, desde demostrar teoremas hasta aquellos que involucran cálculo avanzado. El éxito de los LLMs proviene de una combinación de la arquitectura Transformer con su mecanismo de atención, la metodología de entrenamiento autoregresiva con atención enmascarada y el ajuste fino de alineación a través de algoritmos de aprendizaje por refuerzo. En esta investigación, intentamos explorar una posible solución al problema fundamental NP-duro de optimización combinatoria, en particular, el Problema del Vendedor Viajero (TSP), siguiendo el enfoque de LLM en cuanto a la arquitectura y los algoritmos de entrenamiento. Similar al diseño de LLM, que se entrena de manera autoregresiva para predecir el siguiente token, nuestro modelo se entrena para predecir el siguiente nodo en un grafo TSP. Después de que el modelo se entrena en grafos TSP aleatorios con soluciones cercanas a óptimas conocidas, ajustamos el modelo utilizando la Optimización de Preferencia Directa (DPO). La generación de recorridos en un modelo entrenado es una generación autoregresiva de un paso sin necesidad de refinamiento iterativo. Nuestros resultados son muy prometedores e indican que, para grafos TSP de hasta 100 nodos, una cantidad relativamente pequeña de datos de entrenamiento produce soluciones dentro de unos pocos por ciento de lo óptimo. Esta optimización mejora si se utilizan más datos para entrenar el modelo.
Descripción
Los Modelos de Lenguaje Grandes (LLMs) han avanzado inmensamente en el campo de la Inteligencia Artificial (IA), con modelos recientes capaces de realizar razonamiento en cadena y resolver problemas matemáticos complejos, desde demostrar teoremas hasta aquellos que involucran cálculo avanzado. El éxito de los LLMs proviene de una combinación de la arquitectura Transformer con su mecanismo de atención, la metodología de entrenamiento autoregresiva con atención enmascarada y el ajuste fino de alineación a través de algoritmos de aprendizaje por refuerzo. En esta investigación, intentamos explorar una posible solución al problema fundamental NP-duro de optimización combinatoria, en particular, el Problema del Vendedor Viajero (TSP), siguiendo el enfoque de LLM en cuanto a la arquitectura y los algoritmos de entrenamiento. Similar al diseño de LLM, que se entrena de manera autoregresiva para predecir el siguiente token, nuestro modelo se entrena para predecir el siguiente nodo en un grafo TSP. Después de que el modelo se entrena en grafos TSP aleatorios con soluciones cercanas a óptimas conocidas, ajustamos el modelo utilizando la Optimización de Preferencia Directa (DPO). La generación de recorridos en un modelo entrenado es una generación autoregresiva de un paso sin necesidad de refinamiento iterativo. Nuestros resultados son muy prometedores e indican que, para grafos TSP de hasta 100 nodos, una cantidad relativamente pequeña de datos de entrenamiento produce soluciones dentro de unos pocos por ciento de lo óptimo. Esta optimización mejora si se utilizan más datos para entrenar el modelo.