Un enfoque sistémico para validar la extracción de información de modelos de lenguaje grandes: el marco de aprendibilidad aplicado a textos legales históricos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un enfoque sistémico para validar la extracción de información de modelos de lenguaje grandes: el marco de aprendibilidad aplicado a textos legales históricos

Autores: Çetinkaya, Ali

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un enfoque sistémico para validar la extracción de información de modelos de lenguaje grandes: el marco de aprendibilidad aplicado a textos legales históricos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelo de lenguaje

Extracción de información

Textos legales otomanos

Marco de aprendibilidad

Validación

Modelos de aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento presenta un marco de aprendibilidad para validar la extracción de información de modelos de lenguaje grande (LLM) sin anotaciones de verdad fundamental. Aplicado a 20,809 textos legales otomanos, el marco logra un Puntaje de Aprendibilidad de 0.891 a través del consenso de múltiples clasificadores, con una validación externa que confirma un acuerdo sustancial entre cinco LLM diversos ( = 0.785) y expertos humanos ( = 0.786). El enfoque trata la consistencia interna como una propiedad sistémica medible, donde modelos de aprendizaje automático heterogéneos redescubren de manera independiente los patrones asignados por el LLM. El análisis de confusión revela que los errores se concentran en límites jurídicamente significativos (por ejemplo, comercial-herencia: 20.4% de desacuerdos), demostrando coherencia semántica en lugar de ruido arbitrario. El marco ofrece una validación práctica para corpus históricos y especializados donde la anotación tradicional es inviable, procesando documentos a USD 0.01 cada uno con un rendimiento paralelizable. Las anotaciones validadas permiten la construcción de grafos de conocimiento con 20,809 nodos de documentos, 7 nodos de categoría y bordes de proximidad semántica ponderados por confusión. Esta metodología basada en sistemas avanza la investigación computacional reproducible en dominios que carecen de estándares establecidos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro