Optimización de Prompts de Cadena de Pensamiento a través del Aprendizaje Adversarial
Autores: Yang, Guang; Cai, Xiantao; Wang, Shaohe; Liu, Juhua
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Optimización de Prompts de Cadena de Pensamiento a través del Aprendizaje Adversarial
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Cadena de pensamiento
Capacidades de razonamiento
Optimización de indicaciones
Aprendizaje adversarial
Mejora
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El prompting de Cadena de Pensamiento (CoT) ha demostrado una fuerte efectividad en la mejora de las capacidades de razonamiento de los Modelos de Lenguaje Grande (LLMs). Sin embargo, los enfoques existentes de optimización de CoT aún carecen de mecanismos sistemáticos para evaluar y refinar los prompts. Para abordar esta brecha, proponemos Cadena de Pensamiento Adversarial (adv-CoT), un marco que introduce el aprendizaje adversarial en la optimización de prompts. Adv-CoT refina iterativamente un prompt inicial a través de interacciones entre generador y discriminador e integra tanto mecanismos de retroalimentación como de verificación. Este proceso permite mejoras más específicas e interpretables en las instrucciones y demostraciones de CoT. Evaluamos adv-CoT en doce conjuntos de datos a través de razonamiento de sentido común, fáctico, simbólico y aritmético. En 12 conjuntos de datos de razonamiento, adv-CoT produce una mejora promedio del 4.44% en GPT-3.5-turbo y del 1.08% en GPT-4o-mini, siendo ambas ganancias estadísticamente significativas (prueba t emparejada, p < 0.05). Los resultados experimentales muestran que el marco produce ganancias consistentes pero dependientes de la tarea, particularmente en tareas de razonamiento numérico y fáctico, y mantiene un rendimiento competitivo en benchmarks simbólicos y de sentido común. Las pruebas de significancia emparejadas indican además que las mejoras son estadísticamente fiables en modelos propietarios de alta capacidad, mientras que los resultados en modelos de código abierto más pequeños exhiben mayor variabilidad. Aunque estos hallazgos demuestran la promesa del refinamiento adversarial para el prompting de CoT, las conclusiones siguen siendo preliminares. La efectividad de adv-CoT depende de la capacidad de razonamiento del modelo base, y la evaluación actual está limitada a cuatro categorías principales de tareas de razonamiento. Publicaremos la implementación completa y los prompts para apoyar una mayor investigación en aplicaciones más amplias y estrategias de optimización de prompts más generalizables.
Descripción
El prompting de Cadena de Pensamiento (CoT) ha demostrado una fuerte efectividad en la mejora de las capacidades de razonamiento de los Modelos de Lenguaje Grande (LLMs). Sin embargo, los enfoques existentes de optimización de CoT aún carecen de mecanismos sistemáticos para evaluar y refinar los prompts. Para abordar esta brecha, proponemos Cadena de Pensamiento Adversarial (adv-CoT), un marco que introduce el aprendizaje adversarial en la optimización de prompts. Adv-CoT refina iterativamente un prompt inicial a través de interacciones entre generador y discriminador e integra tanto mecanismos de retroalimentación como de verificación. Este proceso permite mejoras más específicas e interpretables en las instrucciones y demostraciones de CoT. Evaluamos adv-CoT en doce conjuntos de datos a través de razonamiento de sentido común, fáctico, simbólico y aritmético. En 12 conjuntos de datos de razonamiento, adv-CoT produce una mejora promedio del 4.44% en GPT-3.5-turbo y del 1.08% en GPT-4o-mini, siendo ambas ganancias estadísticamente significativas (prueba t emparejada, p < 0.05). Los resultados experimentales muestran que el marco produce ganancias consistentes pero dependientes de la tarea, particularmente en tareas de razonamiento numérico y fáctico, y mantiene un rendimiento competitivo en benchmarks simbólicos y de sentido común. Las pruebas de significancia emparejadas indican además que las mejoras son estadísticamente fiables en modelos propietarios de alta capacidad, mientras que los resultados en modelos de código abierto más pequeños exhiben mayor variabilidad. Aunque estos hallazgos demuestran la promesa del refinamiento adversarial para el prompting de CoT, las conclusiones siguen siendo preliminares. La efectividad de adv-CoT depende de la capacidad de razonamiento del modelo base, y la evaluación actual está limitada a cuatro categorías principales de tareas de razonamiento. Publicaremos la implementación completa y los prompts para apoyar una mayor investigación en aplicaciones más amplias y estrategias de optimización de prompts más generalizables.