Evaluación Dialéctica Multi-Modelo de Cadenas de Razonamiento de LLM: Un Marco Estructurado con Agentes de Puntuación Dual

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluación Dialéctica Multi-Modelo de Cadenas de Razonamiento de LLM: Un Marco Estructurado con Agentes de Puntuación Dual

Autores: Anghel, Catalin; Anghel, Andreea Alexandra; Pecheanu, Emilia; Susnea, Ioan; Cocu, Adina; Istrate, Adrian

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Evaluación Dialéctica Multi-Modelo de Cadenas de Razonamiento de LLM: Un Marco Estructurado con Agentes de Puntuación Dual

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes

Agente dialéctico

Evaluación del razonamiento

Puntuaciones de rúbrica

Análisis semántico

Evaluación en múltiples etapas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

(1) Antecedentes y objetivos: Los grandes modelos de lenguaje (LLMs) como GPT, Mistral y LLaMA exhiben fuertes capacidades en la generación de texto, sin embargo, evaluar la calidad de su razonamiento, particularmente en contextos abiertos y argumentativos, sigue siendo un desafío persistente. Este estudio presenta el Agente Dialéctico, un marco modular desarrollado internamente diseñado para evaluar el razonamiento a través de un proceso estructurado en tres etapas: opinión, contraargumento y síntesis. El marco permite un análisis transparente y comparativo de cómo diferentes LLMs manejan el razonamiento dialéctico. (2) Métodos: Cada etapa es ejecutada por un solo modelo, y las síntesis finales son puntuadas por dos evaluadores LLM independientes (LLaMA 3.1 y GPT-4o) basándose en una rúbrica con cuatro dimensiones: claridad, coherencia, originalidad y dialéctico. Paralelamente, un analizador semántico basado en reglas detecta anomalías retóricas y valores éticos. Todas las salidas y metadatos se almacenan en una base de datos gráfica Neo4j para una exploración estructurada. (3) Resultados: El sistema se aplicó a cuatro modelos de peso abierto (Gemma 7B, Mistral 7B, Dolphin-Mistral, Zephyr 7B) en diez prompts abiertos sobre temas éticos, políticos y tecnológicos. Los resultados muestran una variación estilística y semántica consistente entre los modelos, con un acuerdo interevaluador moderado. Los diagnósticos semánticos revelaron diferencias en la expresión de valores y fallos retóricos no capturados por las puntuaciones de la rúbrica. (4) Originalidad: El marco es, hasta donde sabemos, el primero en integrar razonamiento de múltiples etapas, evaluación basada en rúbricas y semántica, y almacenamiento basado en gráficos en un solo sistema. Permite una evaluación replicable, interpretable y multidimensional del razonamiento generativo, apoyando a investigadores, desarrolladores y educadores que trabajan con LLMs en contextos de alta relevancia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro