Optimización de Prompts de Cadena de Pensamiento a través del Aprendizaje Adversarial

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Optimización de Prompts de Cadena de Pensamiento a través del Aprendizaje Adversarial

Autores: Yang, Guang; Cai, Xiantao; Wang, Shaohe; Liu, Juhua

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Optimización de Prompts de Cadena de Pensamiento a través del Aprendizaje Adversarial

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Cadena de pensamiento

Capacidades de razonamiento

Optimización de indicaciones

Aprendizaje adversarial

Mejora

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El prompting de Cadena de Pensamiento (CoT) ha demostrado una fuerte efectividad en la mejora de las capacidades de razonamiento de los Modelos de Lenguaje Grande (LLMs). Sin embargo, los enfoques existentes de optimización de CoT aún carecen de mecanismos sistemáticos para evaluar y refinar los prompts. Para abordar esta brecha, proponemos Cadena de Pensamiento Adversarial (adv-CoT), un marco que introduce el aprendizaje adversarial en la optimización de prompts. Adv-CoT refina iterativamente un prompt inicial a través de interacciones entre generador y discriminador e integra tanto mecanismos de retroalimentación como de verificación. Este proceso permite mejoras más específicas e interpretables en las instrucciones y demostraciones de CoT. Evaluamos adv-CoT en doce conjuntos de datos a través de razonamiento de sentido común, fáctico, simbólico y aritmético. En 12 conjuntos de datos de razonamiento, adv-CoT produce una mejora promedio del 4.44% en GPT-3.5-turbo y del 1.08% en GPT-4o-mini, siendo ambas ganancias estadísticamente significativas (prueba t emparejada, p < 0.05). Los resultados experimentales muestran que el marco produce ganancias consistentes pero dependientes de la tarea, particularmente en tareas de razonamiento numérico y fáctico, y mantiene un rendimiento competitivo en benchmarks simbólicos y de sentido común. Las pruebas de significancia emparejadas indican además que las mejoras son estadísticamente fiables en modelos propietarios de alta capacidad, mientras que los resultados en modelos de código abierto más pequeños exhiben mayor variabilidad. Aunque estos hallazgos demuestran la promesa del refinamiento adversarial para el prompting de CoT, las conclusiones siguen siendo preliminares. La efectividad de adv-CoT depende de la capacidad de razonamiento del modelo base, y la evaluación actual está limitada a cuatro categorías principales de tareas de razonamiento. Publicaremos la implementación completa y los prompts para apoyar una mayor investigación en aplicaciones más amplias y estrategias de optimización de prompts más generalizables.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro