logo móvil
Contáctanos

SRBerta-Un modelo de lenguaje Transformer para textos legales en cirílico serbio

Autores: Bogdanovi, Milo; Koci, Jelena; Stoimenov, Leonid

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

SRBerta-Un modelo de lenguaje Transformer para textos legales en cirílico serbio


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Lenguaje
Aprendizaje automático
SRBerta
Documentos legales serbios
Proceso de entrenamiento
Métrica de precisión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El lenguaje es una habilidad única de los seres humanos. Aunque relativamente simple para los humanos, la capacidad de entender el lenguaje humano es una tarea altamente compleja para las máquinas. Para que una máquina aprenda un idioma particular, debe entender no solo las palabras y las reglas utilizadas en un idioma específico, sino también el contexto de las oraciones y el significado que las palabras adquieren en un contexto particular. En el desarrollo experimental que presentamos en este documento, el objetivo fue el desarrollo del modelo de lenguaje SRBerta, un modelo de lenguaje diseñado para entender el lenguaje formal de los documentos legales serbios. SRBerta es el primero de su tipo, ya que ha sido entrenado utilizando textos legales en cirílico contenidos en un conjunto de datos creado específicamente para este propósito. El objetivo principal del desarrollo de la red SRBerta fue entender el lenguaje formal de la legislación serbia. El proceso de entrenamiento se llevó a cabo utilizando recursos mínimos (una sola GPU NVIDIA Quadro RTX 5000) y se realizó en dos fases: entrenamiento del modelo base y ajuste fino. Presentaremos la estructura del modelo, la estructura de los conjuntos de datos de entrenamiento, el proceso de entrenamiento y los resultados de la evaluación. Además, explicaremos la métrica de precisión utilizada en nuestro caso y demostraremos que SRBerta logra un alto nivel de precisión para la tarea de modelado de lenguaje enmascarado en textos legales serbios en cirílico. Finalmente, el modelo SRBerta y los conjuntos de datos de entrenamiento están disponibles públicamente para fines científicos y comerciales.

Otros recursos que podrían interesarte

Temas Virtualpro