Un enfoque sistémico para validar la extracción de información de modelos de lenguaje grandes: el marco de aprendibilidad aplicado a textos legales históricos
Autores: Çetinkaya, Ali
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un enfoque sistémico para validar la extracción de información de modelos de lenguaje grandes: el marco de aprendibilidad aplicado a textos legales históricos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelo de lenguaje
Extracción de información
Textos legales otomanos
Marco de aprendibilidad
Validación
Modelos de aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta un marco de aprendibilidad para validar la extracción de información de modelos de lenguaje grande (LLM) sin anotaciones de verdad fundamental. Aplicado a 20,809 textos legales otomanos, el marco logra un Puntaje de Aprendibilidad de 0.891 a través del consenso de múltiples clasificadores, con una validación externa que confirma un acuerdo sustancial entre cinco LLM diversos ( = 0.785) y expertos humanos ( = 0.786). El enfoque trata la consistencia interna como una propiedad sistémica medible, donde modelos de aprendizaje automático heterogéneos redescubren de manera independiente los patrones asignados por el LLM. El análisis de confusión revela que los errores se concentran en límites jurídicamente significativos (por ejemplo, comercial-herencia: 20.4% de desacuerdos), demostrando coherencia semántica en lugar de ruido arbitrario. El marco ofrece una validación práctica para corpus históricos y especializados donde la anotación tradicional es inviable, procesando documentos a USD 0.01 cada uno con un rendimiento paralelizable. Las anotaciones validadas permiten la construcción de grafos de conocimiento con 20,809 nodos de documentos, 7 nodos de categoría y bordes de proximidad semántica ponderados por confusión. Esta metodología basada en sistemas avanza la investigación computacional reproducible en dominios que carecen de estándares establecidos.
Descripción
Este documento presenta un marco de aprendibilidad para validar la extracción de información de modelos de lenguaje grande (LLM) sin anotaciones de verdad fundamental. Aplicado a 20,809 textos legales otomanos, el marco logra un Puntaje de Aprendibilidad de 0.891 a través del consenso de múltiples clasificadores, con una validación externa que confirma un acuerdo sustancial entre cinco LLM diversos ( = 0.785) y expertos humanos ( = 0.786). El enfoque trata la consistencia interna como una propiedad sistémica medible, donde modelos de aprendizaje automático heterogéneos redescubren de manera independiente los patrones asignados por el LLM. El análisis de confusión revela que los errores se concentran en límites jurídicamente significativos (por ejemplo, comercial-herencia: 20.4% de desacuerdos), demostrando coherencia semántica en lugar de ruido arbitrario. El marco ofrece una validación práctica para corpus históricos y especializados donde la anotación tradicional es inviable, procesando documentos a USD 0.01 cada uno con un rendimiento paralelizable. Las anotaciones validadas permiten la construcción de grafos de conocimiento con 20,809 nodos de documentos, 7 nodos de categoría y bordes de proximidad semántica ponderados por confusión. Esta metodología basada en sistemas avanza la investigación computacional reproducible en dominios que carecen de estándares establecidos.