Generación autoregresiva de soluciones de optimización combinatoria en un solo paso basada en la arquitectura de modelos de lenguaje grandes y algoritmos de aprendizaje

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Generación autoregresiva de soluciones de optimización combinatoria en un solo paso basada en la arquitectura de modelos de lenguaje grandes y algoritmos de aprendizaje

Autores: Ghimire, Bishad; Mahmood, Ausif; Elleithy, Khaled

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Generación autoregresiva de soluciones de optimización combinatoria en un solo paso basada en la arquitectura de modelos de lenguaje grandes y algoritmos de aprendizaje

Categoría

Ingeniería y Tecnología

Subcategoría

Inteligencia Artificial

Palabras clave

Modelos de lenguaje

Inteligencia artificial

Arquitectura de transformadores

Entrenamiento autoregresivo

Optimización combinatoria

Problema del vendedor viajero

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

Los Modelos de Lenguaje Grandes (LLMs) han avanzado inmensamente en el campo de la Inteligencia Artificial (IA), con modelos recientes capaces de realizar razonamiento en cadena y resolver problemas matemáticos complejos, desde demostrar teoremas hasta aquellos que involucran cálculo avanzado. El éxito de los LLMs proviene de una combinación de la arquitectura Transformer con su mecanismo de atención, la metodología de entrenamiento autoregresiva con atención enmascarada y el ajuste fino de alineación a través de algoritmos de aprendizaje por refuerzo. En esta investigación, intentamos explorar una posible solución al problema fundamental NP-duro de optimización combinatoria, en particular, el Problema del Vendedor Viajero (TSP), siguiendo el enfoque de LLM en cuanto a la arquitectura y los algoritmos de entrenamiento. Similar al diseño de LLM, que se entrena de manera autoregresiva para predecir el siguiente token, nuestro modelo se entrena para predecir el siguiente nodo en un grafo TSP. Después de que el modelo se entrena en grafos TSP aleatorios con soluciones cercanas a óptimas conocidas, ajustamos el modelo utilizando la Optimización de Preferencia Directa (DPO). La generación de recorridos en un modelo entrenado es una generación autoregresiva de un paso sin necesidad de refinamiento iterativo. Nuestros resultados son muy prometedores e indican que, para grafos TSP de hasta 100 nodos, una cantidad relativamente pequeña de datos de entrenamiento produce soluciones dentro de unos pocos por ciento de lo óptimo. Esta optimización mejora si se utilizan más datos para entrenar el modelo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro