¿Los Modelos de Lenguaje Grande Muestran Sesgos Similares a los Humanos? Explorando la Brecha de Confianza-Competencia en la IA
Autores: Singh, Aniket Kumar; Lamichhane, Bishal; Devkota, Suman; Dhakal, Uttam; Dhakal, Chandra
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
¿Los Modelos de Lenguaje Grande Muestran Sesgos Similares a los Humanos? Explorando la Brecha de Confianza-Competencia en la IA
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estudio
Tendencias de autoevaluación
Modelos de Lenguaje Grande
Sesgos cognitivos
Efecto Dunning-Kruger
Puntuaciones de confianza
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este estudio investiga las tendencias de autoevaluación en los Modelos de Lenguaje Grande (LLMs), examinando si los patrones se asemejan a sesgos cognitivos humanos como el efecto Dunning-Kruger. Los LLMs, incluidos GPT, BARD, Claude y LLaMA, se evalúan utilizando puntuaciones de confianza en tareas de razonamiento. Los modelos proporcionan niveles de confianza autoevaluados antes y después de responder a diferentes preguntas. Los resultados muestran casos en los que una alta confianza no se correlaciona con la corrección, lo que sugiere sobreconfianza. Por el contrario, una baja confianza a pesar de respuestas precisas indica una posible subestimación. Las puntuaciones de confianza varían según las categorías de problemas y dificultades, reduciendo la confianza para consultas complejas. GPT-4 muestra una confianza consistente, mientras que LLaMA y Claude demuestran más variaciones. Algunos de estos patrones se asemejan al efecto Dunning-Kruger, donde la incompetencia conduce a autoevaluaciones infladas. Aunque no es concluyentemente evidente, estas observaciones son paralelas a este fenómeno y proporcionan una base para explorar más a fondo la alineación de competencia y confianza en los LLMs. A medida que los LLMs continúan expandiendo sus roles en la sociedad, se justifica una mayor investigación en sus mecanismos de autoevaluación para comprender completamente sus capacidades y limitaciones.
Descripción
Este estudio investiga las tendencias de autoevaluación en los Modelos de Lenguaje Grande (LLMs), examinando si los patrones se asemejan a sesgos cognitivos humanos como el efecto Dunning-Kruger. Los LLMs, incluidos GPT, BARD, Claude y LLaMA, se evalúan utilizando puntuaciones de confianza en tareas de razonamiento. Los modelos proporcionan niveles de confianza autoevaluados antes y después de responder a diferentes preguntas. Los resultados muestran casos en los que una alta confianza no se correlaciona con la corrección, lo que sugiere sobreconfianza. Por el contrario, una baja confianza a pesar de respuestas precisas indica una posible subestimación. Las puntuaciones de confianza varían según las categorías de problemas y dificultades, reduciendo la confianza para consultas complejas. GPT-4 muestra una confianza consistente, mientras que LLaMA y Claude demuestran más variaciones. Algunos de estos patrones se asemejan al efecto Dunning-Kruger, donde la incompetencia conduce a autoevaluaciones infladas. Aunque no es concluyentemente evidente, estas observaciones son paralelas a este fenómeno y proporcionan una base para explorar más a fondo la alineación de competencia y confianza en los LLMs. A medida que los LLMs continúan expandiendo sus roles en la sociedad, se justifica una mayor investigación en sus mecanismos de autoevaluación para comprender completamente sus capacidades y limitaciones.