De borradores de hechos a sistemas operativos: búsqueda semántica en decisiones legales utilizando borradores de hechos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

De borradores de hechos a sistemas operativos: búsqueda semántica en decisiones legales utilizando borradores de hechos

Autores: Csányi, Gergely Márk; Lakatos, Dorina; Üveges, István; Megyeri, Andrea; Vadász, János Pál; Nagy, Dániel; Vági, Renátó

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

De borradores de hechos a sistemas operativos: búsqueda semántica en decisiones legales utilizando borradores de hechos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Artículo de investigación

Tarea de búsqueda de similitud semántica

Dominio legal

Decisiones judiciales

Borradores de hechos

Soluciones de incrustación de texto

Métodos de vectorización

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 50

Citaciones: Sin citaciones

Este documento de investigación presenta hallazgos de una investigación en la tarea de búsqueda de similitud semántica dentro del ámbito legal, utilizando un corpus de 1172 decisiones judiciales húngaras. El estudio establece las bases para un sistema operativo de búsqueda de similitud semántica diseñado para identificar casos con hechos comparables utilizando borradores preliminares de hechos legales. Evaluar dichos sistemas a menudo plantea desafíos significativos, dada la necesidad de exhaustivas verificaciones de documentos, que pueden ser costosas y limitar la reutilización de la evaluación. Para abordar esto, el estudio emplea borradores de hechos creados manualmente para casos legales, lo que permite una clasificación confiable de casos originales dentro de documentos recuperados y una comparación cuantitativa de varios métodos de vectorización. El estudio compara doce soluciones diferentes de incrustación de texto (la más reciente disponible justo unas semanas antes de que se redactara el manuscrito), identificando los modelos de Cohere, Beijing Academy of Artificial Intelligence, Jina AI, OpenAI y Microsoft como los de mejor rendimiento. Para superar la limitación de la ventana de contexto de los modelos basados en transformadores, investigamos técnicas de segmentación, paso y escalado del último segmento, con el escalado del último segmento mejorando significativamente la calidad de la incrustación. Los resultados sugieren que la efectividad del paso varía según la cantidad de tokens. Es notable que el uso de un paso con 16 tokens produjo resultados óptimos, lo que representa el 3.125% del tamaño de la ventana de contexto para los modelos de mejor rendimiento. Los resultados también sugirieron que, de los modelos que tienen una ventana de contexto de 8192 tokens, el modelo es superior en comparación con los modelos en capturar las partes relevantes de un documento si el texto contiene una cantidad significativa de ruido. La validez del enfoque fue evaluada y confirmada por expertos legales. Estas ideas llevaron a un sistema operativo de búsqueda semántica para un importante proveedor de contenido legal.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro