logo móvil
Contáctanos

Un enfoque sistémico para validar la extracción de información de modelos de lenguaje grandes: el marco de aprendibilidad aplicado a textos legales históricos

Autores: Çetinkaya, Ali

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Un enfoque sistémico para validar la extracción de información de modelos de lenguaje grandes: el marco de aprendibilidad aplicado a textos legales históricos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelo de lenguaje
Extracción de información
Textos legales otomanos
Marco de aprendibilidad
Validación
Modelos de aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento presenta un marco de aprendibilidad para validar la extracción de información de modelos de lenguaje grande (LLM) sin anotaciones de verdad fundamental. Aplicado a 20,809 textos legales otomanos, el marco logra un Puntaje de Aprendibilidad de 0.891 a través del consenso de múltiples clasificadores, con una validación externa que confirma un acuerdo sustancial entre cinco LLM diversos ( = 0.785) y expertos humanos ( = 0.786). El enfoque trata la consistencia interna como una propiedad sistémica medible, donde modelos de aprendizaje automático heterogéneos redescubren de manera independiente los patrones asignados por el LLM. El análisis de confusión revela que los errores se concentran en límites jurídicamente significativos (por ejemplo, comercial-herencia: 20.4% de desacuerdos), demostrando coherencia semántica en lugar de ruido arbitrario. El marco ofrece una validación práctica para corpus históricos y especializados donde la anotación tradicional es inviable, procesando documentos a USD 0.01 cada uno con un rendimiento paralelizable. Las anotaciones validadas permiten la construcción de grafos de conocimiento con 20,809 nodos de documentos, 7 nodos de categoría y bordes de proximidad semántica ponderados por confusión. Esta metodología basada en sistemas avanza la investigación computacional reproducible en dominios que carecen de estándares establecidos.

Otros recursos que podrían interesarte

Temas Virtualpro