logo móvil
Contáctanos

Optimización de Prompts de Cadena de Pensamiento a través del Aprendizaje Adversarial

Autores: Yang, Guang; Cai, Xiantao; Wang, Shaohe; Liu, Juhua

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Optimización de Prompts de Cadena de Pensamiento a través del Aprendizaje Adversarial


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Cadena de pensamiento
Capacidades de razonamiento
Optimización de indicaciones
Aprendizaje adversarial
Mejora

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El prompting de Cadena de Pensamiento (CoT) ha demostrado una fuerte efectividad en la mejora de las capacidades de razonamiento de los Modelos de Lenguaje Grande (LLMs). Sin embargo, los enfoques existentes de optimización de CoT aún carecen de mecanismos sistemáticos para evaluar y refinar los prompts. Para abordar esta brecha, proponemos Cadena de Pensamiento Adversarial (adv-CoT), un marco que introduce el aprendizaje adversarial en la optimización de prompts. Adv-CoT refina iterativamente un prompt inicial a través de interacciones entre generador y discriminador e integra tanto mecanismos de retroalimentación como de verificación. Este proceso permite mejoras más específicas e interpretables en las instrucciones y demostraciones de CoT. Evaluamos adv-CoT en doce conjuntos de datos a través de razonamiento de sentido común, fáctico, simbólico y aritmético. En 12 conjuntos de datos de razonamiento, adv-CoT produce una mejora promedio del 4.44% en GPT-3.5-turbo y del 1.08% en GPT-4o-mini, siendo ambas ganancias estadísticamente significativas (prueba t emparejada, p < 0.05). Los resultados experimentales muestran que el marco produce ganancias consistentes pero dependientes de la tarea, particularmente en tareas de razonamiento numérico y fáctico, y mantiene un rendimiento competitivo en benchmarks simbólicos y de sentido común. Las pruebas de significancia emparejadas indican además que las mejoras son estadísticamente fiables en modelos propietarios de alta capacidad, mientras que los resultados en modelos de código abierto más pequeños exhiben mayor variabilidad. Aunque estos hallazgos demuestran la promesa del refinamiento adversarial para el prompting de CoT, las conclusiones siguen siendo preliminares. La efectividad de adv-CoT depende de la capacidad de razonamiento del modelo base, y la evaluación actual está limitada a cuatro categorías principales de tareas de razonamiento. Publicaremos la implementación completa y los prompts para apoyar una mayor investigación en aplicaciones más amplias y estrategias de optimización de prompts más generalizables.

Otros recursos que podrían interesarte

Temas Virtualpro