logo móvil
Contáctanos

De borradores de hechos a sistemas operativos: búsqueda semántica en decisiones legales utilizando borradores de hechos

Autores: Csányi, Gergely Márk; Lakatos, Dorina; Üveges, István; Megyeri, Andrea; Vadász, János Pál; Nagy, Dániel; Vági, Renátó

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

De borradores de hechos a sistemas operativos: búsqueda semántica en decisiones legales utilizando borradores de hechos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Artículo de investigación
Tarea de búsqueda de similitud semántica
Dominio legal
Decisiones judiciales
Borradores de hechos
Soluciones de incrustación de texto
Métodos de vectorización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 50

Citaciones: Sin citaciones


Descripción
Este documento de investigación presenta hallazgos de una investigación en la tarea de búsqueda de similitud semántica dentro del ámbito legal, utilizando un corpus de 1172 decisiones judiciales húngaras. El estudio establece las bases para un sistema operativo de búsqueda de similitud semántica diseñado para identificar casos con hechos comparables utilizando borradores preliminares de hechos legales. Evaluar dichos sistemas a menudo plantea desafíos significativos, dada la necesidad de exhaustivas verificaciones de documentos, que pueden ser costosas y limitar la reutilización de la evaluación. Para abordar esto, el estudio emplea borradores de hechos creados manualmente para casos legales, lo que permite una clasificación confiable de casos originales dentro de documentos recuperados y una comparación cuantitativa de varios métodos de vectorización. El estudio compara doce soluciones diferentes de incrustación de texto (la más reciente disponible justo unas semanas antes de que se redactara el manuscrito), identificando los modelos de Cohere, Beijing Academy of Artificial Intelligence, Jina AI, OpenAI y Microsoft como los de mejor rendimiento. Para superar la limitación de la ventana de contexto de los modelos basados en transformadores, investigamos técnicas de segmentación, paso y escalado del último segmento, con el escalado del último segmento mejorando significativamente la calidad de la incrustación. Los resultados sugieren que la efectividad del paso varía según la cantidad de tokens. Es notable que el uso de un paso con 16 tokens produjo resultados óptimos, lo que representa el 3.125% del tamaño de la ventana de contexto para los modelos de mejor rendimiento. Los resultados también sugirieron que, de los modelos que tienen una ventana de contexto de 8192 tokens, el modelo es superior en comparación con los modelos en capturar las partes relevantes de un documento si el texto contiene una cantidad significativa de ruido. La validez del enfoque fue evaluada y confirmada por expertos legales. Estas ideas llevaron a un sistema operativo de búsqueda semántica para un importante proveedor de contenido legal.

Otros recursos que podrían interesarte

Temas Virtualpro