Evaluación Dialéctica Multi-Modelo de Cadenas de Razonamiento de LLM: Un Marco Estructurado con Agentes de Puntuación Dual
Autores: Anghel, Catalin; Anghel, Andreea Alexandra; Pecheanu, Emilia; Susnea, Ioan; Cocu, Adina; Istrate, Adrian
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Evaluación Dialéctica Multi-Modelo de Cadenas de Razonamiento de LLM: Un Marco Estructurado con Agentes de Puntuación Dual
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Agente dialéctico
Evaluación del razonamiento
Puntuaciones de rúbrica
Análisis semántico
Evaluación en múltiples etapas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
(1) Antecedentes y objetivos: Los grandes modelos de lenguaje (LLMs) como GPT, Mistral y LLaMA exhiben fuertes capacidades en la generación de texto, sin embargo, evaluar la calidad de su razonamiento, particularmente en contextos abiertos y argumentativos, sigue siendo un desafío persistente. Este estudio presenta el Agente Dialéctico, un marco modular desarrollado internamente diseñado para evaluar el razonamiento a través de un proceso estructurado en tres etapas: opinión, contraargumento y síntesis. El marco permite un análisis transparente y comparativo de cómo diferentes LLMs manejan el razonamiento dialéctico. (2) Métodos: Cada etapa es ejecutada por un solo modelo, y las síntesis finales son puntuadas por dos evaluadores LLM independientes (LLaMA 3.1 y GPT-4o) basándose en una rúbrica con cuatro dimensiones: claridad, coherencia, originalidad y dialéctico. Paralelamente, un analizador semántico basado en reglas detecta anomalías retóricas y valores éticos. Todas las salidas y metadatos se almacenan en una base de datos gráfica Neo4j para una exploración estructurada. (3) Resultados: El sistema se aplicó a cuatro modelos de peso abierto (Gemma 7B, Mistral 7B, Dolphin-Mistral, Zephyr 7B) en diez prompts abiertos sobre temas éticos, políticos y tecnológicos. Los resultados muestran una variación estilística y semántica consistente entre los modelos, con un acuerdo interevaluador moderado. Los diagnósticos semánticos revelaron diferencias en la expresión de valores y fallos retóricos no capturados por las puntuaciones de la rúbrica. (4) Originalidad: El marco es, hasta donde sabemos, el primero en integrar razonamiento de múltiples etapas, evaluación basada en rúbricas y semántica, y almacenamiento basado en gráficos en un solo sistema. Permite una evaluación replicable, interpretable y multidimensional del razonamiento generativo, apoyando a investigadores, desarrolladores y educadores que trabajan con LLMs en contextos de alta relevancia.
Descripción
(1) Antecedentes y objetivos: Los grandes modelos de lenguaje (LLMs) como GPT, Mistral y LLaMA exhiben fuertes capacidades en la generación de texto, sin embargo, evaluar la calidad de su razonamiento, particularmente en contextos abiertos y argumentativos, sigue siendo un desafío persistente. Este estudio presenta el Agente Dialéctico, un marco modular desarrollado internamente diseñado para evaluar el razonamiento a través de un proceso estructurado en tres etapas: opinión, contraargumento y síntesis. El marco permite un análisis transparente y comparativo de cómo diferentes LLMs manejan el razonamiento dialéctico. (2) Métodos: Cada etapa es ejecutada por un solo modelo, y las síntesis finales son puntuadas por dos evaluadores LLM independientes (LLaMA 3.1 y GPT-4o) basándose en una rúbrica con cuatro dimensiones: claridad, coherencia, originalidad y dialéctico. Paralelamente, un analizador semántico basado en reglas detecta anomalías retóricas y valores éticos. Todas las salidas y metadatos se almacenan en una base de datos gráfica Neo4j para una exploración estructurada. (3) Resultados: El sistema se aplicó a cuatro modelos de peso abierto (Gemma 7B, Mistral 7B, Dolphin-Mistral, Zephyr 7B) en diez prompts abiertos sobre temas éticos, políticos y tecnológicos. Los resultados muestran una variación estilística y semántica consistente entre los modelos, con un acuerdo interevaluador moderado. Los diagnósticos semánticos revelaron diferencias en la expresión de valores y fallos retóricos no capturados por las puntuaciones de la rúbrica. (4) Originalidad: El marco es, hasta donde sabemos, el primero en integrar razonamiento de múltiples etapas, evaluación basada en rúbricas y semántica, y almacenamiento basado en gráficos en un solo sistema. Permite una evaluación replicable, interpretable y multidimensional del razonamiento generativo, apoyando a investigadores, desarrolladores y educadores que trabajan con LLMs en contextos de alta relevancia.