Predicción de decisiones legales árabes utilizando modelos de lenguaje grandes
Autores: Ammar, Adel; Koubaa, Anis; Benjdira, Bilel; Nacar, Omer; Sibaee, Serry
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Predicción de decisiones legales árabes utilizando modelos de lenguaje grandes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estudios legales
Decisiones judiciales
Análisis de tribunales árabes
Análisis predictivo
Modelos de lenguaje grandes
Evaluación de rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 44
Citaciones: Sin citaciones
En el intrincado campo de los estudios legales, el análisis de las decisiones judiciales es una piedra angular para el funcionamiento efectivo del sistema judicial. La capacidad de predecir los resultados judiciales ayuda a los jueces durante el proceso de toma de decisiones y equipa a los abogados con ideas invaluables, mejorando sus enfoques estratégicos en los casos. A pesar de su importancia, el dominio del análisis de las decisiones judiciales en árabe sigue siendo poco explorado. Este artículo pionero realiza un análisis predictivo exhaustivo de las decisiones judiciales en árabe en un conjunto de datos de 10,813 casos reales de tribunales comerciales, aprovechando las capacidades avanzadas de los modelos de lenguaje grandes de última generación. A través de una exploración sistemática, evaluamos tres modelos fundamentales prevalentes (LLaMA-7b, JAIS-13b y GPT-3.5-turbo) y tres paradigmas de entrenamiento: zero-shot, one-shot y ajuste fino personalizado. Además, evaluamos el beneficio de resumir y/o traducir los textos originales en árabe de entrada. Esto da lugar a un espectro de 14 variantes de modelos, para las cuales ofrecemos una evaluación de rendimiento detallada con una serie de métricas diferentes (evaluación humana, evaluación GPT, puntuaciones ROUGE y BLEU). Mostramos que todas las variantes de los modelos LLaMA tienen un rendimiento limitado, mientras que los modelos basados en GPT-3.5 superan a todos los demás modelos por un amplio margen, superando la puntuación promedio del modelo JAIS centrado en árabe en un 50%. Además, demostramos que todas las puntuaciones excepto la evaluación humana son inconsistentes y poco confiables para evaluar el rendimiento de los modelos de lenguaje grandes en la predicción de decisiones judiciales. Este estudio allana el camino para futuras investigaciones, cerrando la brecha entre la lingüística computacional y la analítica legal árabe.
Descripción
En el intrincado campo de los estudios legales, el análisis de las decisiones judiciales es una piedra angular para el funcionamiento efectivo del sistema judicial. La capacidad de predecir los resultados judiciales ayuda a los jueces durante el proceso de toma de decisiones y equipa a los abogados con ideas invaluables, mejorando sus enfoques estratégicos en los casos. A pesar de su importancia, el dominio del análisis de las decisiones judiciales en árabe sigue siendo poco explorado. Este artículo pionero realiza un análisis predictivo exhaustivo de las decisiones judiciales en árabe en un conjunto de datos de 10,813 casos reales de tribunales comerciales, aprovechando las capacidades avanzadas de los modelos de lenguaje grandes de última generación. A través de una exploración sistemática, evaluamos tres modelos fundamentales prevalentes (LLaMA-7b, JAIS-13b y GPT-3.5-turbo) y tres paradigmas de entrenamiento: zero-shot, one-shot y ajuste fino personalizado. Además, evaluamos el beneficio de resumir y/o traducir los textos originales en árabe de entrada. Esto da lugar a un espectro de 14 variantes de modelos, para las cuales ofrecemos una evaluación de rendimiento detallada con una serie de métricas diferentes (evaluación humana, evaluación GPT, puntuaciones ROUGE y BLEU). Mostramos que todas las variantes de los modelos LLaMA tienen un rendimiento limitado, mientras que los modelos basados en GPT-3.5 superan a todos los demás modelos por un amplio margen, superando la puntuación promedio del modelo JAIS centrado en árabe en un 50%. Además, demostramos que todas las puntuaciones excepto la evaluación humana son inconsistentes y poco confiables para evaluar el rendimiento de los modelos de lenguaje grandes en la predicción de decisiones judiciales. Este estudio allana el camino para futuras investigaciones, cerrando la brecha entre la lingüística computacional y la analítica legal árabe.