logo móvil
Contáctanos

Generación autoregresiva de soluciones de optimización combinatoria en un solo paso basada en la arquitectura de modelos de lenguaje grandes y algoritmos de aprendizaje

Autores: Ghimire, Bishad; Mahmood, Ausif; Elleithy, Khaled

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Generación autoregresiva de soluciones de optimización combinatoria en un solo paso basada en la arquitectura de modelos de lenguaje grandes y algoritmos de aprendizaje


Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Modelos de lenguaje
Inteligencia artificial
Arquitectura de transformadores
Entrenamiento autoregresivo
Optimización combinatoria
Problema del vendedor viajero

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
Los Modelos de Lenguaje Grandes (LLMs) han avanzado inmensamente en el campo de la Inteligencia Artificial (IA), con modelos recientes capaces de realizar razonamiento en cadena y resolver problemas matemáticos complejos, desde demostrar teoremas hasta aquellos que involucran cálculo avanzado. El éxito de los LLMs proviene de una combinación de la arquitectura Transformer con su mecanismo de atención, la metodología de entrenamiento autoregresiva con atención enmascarada y el ajuste fino de alineación a través de algoritmos de aprendizaje por refuerzo. En esta investigación, intentamos explorar una posible solución al problema fundamental NP-duro de optimización combinatoria, en particular, el Problema del Vendedor Viajero (TSP), siguiendo el enfoque de LLM en cuanto a la arquitectura y los algoritmos de entrenamiento. Similar al diseño de LLM, que se entrena de manera autoregresiva para predecir el siguiente token, nuestro modelo se entrena para predecir el siguiente nodo en un grafo TSP. Después de que el modelo se entrena en grafos TSP aleatorios con soluciones cercanas a óptimas conocidas, ajustamos el modelo utilizando la Optimización de Preferencia Directa (DPO). La generación de recorridos en un modelo entrenado es una generación autoregresiva de un paso sin necesidad de refinamiento iterativo. Nuestros resultados son muy prometedores e indican que, para grafos TSP de hasta 100 nodos, una cantidad relativamente pequeña de datos de entrenamiento produce soluciones dentro de unos pocos por ciento de lo óptimo. Esta optimización mejora si se utilizan más datos para entrenar el modelo.

Otros recursos que podrían interesarte

Temas Virtualpro