Integridad del Conocimiento en Modelos de Lenguaje Grande: Una Revisión del Estado del Arte
Autores: Abishethvarman, Vadivel; Sabrina, Fariza; Kwan, Paul
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Integridad del Conocimiento en Modelos de Lenguaje Grande: Una Revisión del Estado del Arte
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Inteligencia general artificial
Procesamiento de lenguaje natural
Integridad del conocimiento
Integridad semántica
Seguimiento de la procedencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los Modelos de Lenguaje Grande (LLMs) son tecnologías emergentes y una tendencia de investigación en crecimiento en la Inteligencia General Artificial (AGI), que imagina un futuro donde las máquinas pueden pensar y aprender como los humanos en una amplia gama de tareas. La información generada por los LLMs es esencialmente la predicción de los siguientes tokens en tareas de Procesamiento de Lenguaje Natural (NLP). Sin embargo, el contenido generado siempre está sujeto a problemas de veracidad y alucinaciones. Por lo tanto, la integridad de la información y el conocimiento del contenido generado por LLMs sigue siendo subjetiva. Explorar la literatura reciente sobre la integridad de los LLMs de manera sistemática es tanto oportuno como esencial. Además, garantizar la fiabilidad de los LLMs en aplicaciones del mundo real es crítico. Se han explorado varios enfoques para promover la integridad de la información y el conocimiento en los LLMs, incluyendo el entrenamiento adversarial, la augmentación de datos y los métodos de calibración. Sin embargo, más allá de estas técnicas, otras estrategias también contribuyen a mantener la integridad del conocimiento. Este artículo se centra específicamente en tres de estos enfoques: la destilación de conocimiento, la integridad semántica y el seguimiento de procedencia, que desempeñan roles esenciales para garantizar que los LLMs generen información precisa, consistente y confiable. La destilación de conocimiento mejora la eficiencia del modelo al transferir conocimiento de modelos más grandes a modelos más pequeños, preservando el aprendizaje esencial sin comprometer la integridad del conocimiento. Esto reduce las alucinaciones. La integridad semántica protege la consistencia y fortalece la robustez de las salidas generadas. Se verifica simultáneamente el significado de las salidas con el contexto. El seguimiento de procedencia mejora la transparencia y la confiabilidad a través de mecanismos como la línea de datos y la explicabilidad, asegurando así la credibilidad de las respuestas generadas por los LLMs. Esta revisión sugiere que la destilación de conocimiento, la integridad semántica y el seguimiento de procedencia pueden mejorar la fiabilidad de las salidas de los LLM, con estudios previos que informan reducciones en las tasas de alucinación, mejoras en la robustez y ganancias en la consistencia fáctica.
Descripción
Los Modelos de Lenguaje Grande (LLMs) son tecnologías emergentes y una tendencia de investigación en crecimiento en la Inteligencia General Artificial (AGI), que imagina un futuro donde las máquinas pueden pensar y aprender como los humanos en una amplia gama de tareas. La información generada por los LLMs es esencialmente la predicción de los siguientes tokens en tareas de Procesamiento de Lenguaje Natural (NLP). Sin embargo, el contenido generado siempre está sujeto a problemas de veracidad y alucinaciones. Por lo tanto, la integridad de la información y el conocimiento del contenido generado por LLMs sigue siendo subjetiva. Explorar la literatura reciente sobre la integridad de los LLMs de manera sistemática es tanto oportuno como esencial. Además, garantizar la fiabilidad de los LLMs en aplicaciones del mundo real es crítico. Se han explorado varios enfoques para promover la integridad de la información y el conocimiento en los LLMs, incluyendo el entrenamiento adversarial, la augmentación de datos y los métodos de calibración. Sin embargo, más allá de estas técnicas, otras estrategias también contribuyen a mantener la integridad del conocimiento. Este artículo se centra específicamente en tres de estos enfoques: la destilación de conocimiento, la integridad semántica y el seguimiento de procedencia, que desempeñan roles esenciales para garantizar que los LLMs generen información precisa, consistente y confiable. La destilación de conocimiento mejora la eficiencia del modelo al transferir conocimiento de modelos más grandes a modelos más pequeños, preservando el aprendizaje esencial sin comprometer la integridad del conocimiento. Esto reduce las alucinaciones. La integridad semántica protege la consistencia y fortalece la robustez de las salidas generadas. Se verifica simultáneamente el significado de las salidas con el contexto. El seguimiento de procedencia mejora la transparencia y la confiabilidad a través de mecanismos como la línea de datos y la explicabilidad, asegurando así la credibilidad de las respuestas generadas por los LLMs. Esta revisión sugiere que la destilación de conocimiento, la integridad semántica y el seguimiento de procedencia pueden mejorar la fiabilidad de las salidas de los LLM, con estudios previos que informan reducciones en las tasas de alucinación, mejoras en la robustez y ganancias en la consistencia fáctica.