SRBerta-Un modelo de lenguaje Transformer para textos legales en cirílico serbio
Autores: Bogdanovi, Milo; Koci, Jelena; Stoimenov, Leonid
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
SRBerta-Un modelo de lenguaje Transformer para textos legales en cirílico serbio
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Lenguaje
Aprendizaje automático
SRBerta
Documentos legales serbios
Proceso de entrenamiento
Métrica de precisión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El lenguaje es una habilidad única de los seres humanos. Aunque relativamente simple para los humanos, la capacidad de entender el lenguaje humano es una tarea altamente compleja para las máquinas. Para que una máquina aprenda un idioma particular, debe entender no solo las palabras y las reglas utilizadas en un idioma específico, sino también el contexto de las oraciones y el significado que las palabras adquieren en un contexto particular. En el desarrollo experimental que presentamos en este documento, el objetivo fue el desarrollo del modelo de lenguaje SRBerta, un modelo de lenguaje diseñado para entender el lenguaje formal de los documentos legales serbios. SRBerta es el primero de su tipo, ya que ha sido entrenado utilizando textos legales en cirílico contenidos en un conjunto de datos creado específicamente para este propósito. El objetivo principal del desarrollo de la red SRBerta fue entender el lenguaje formal de la legislación serbia. El proceso de entrenamiento se llevó a cabo utilizando recursos mínimos (una sola GPU NVIDIA Quadro RTX 5000) y se realizó en dos fases: entrenamiento del modelo base y ajuste fino. Presentaremos la estructura del modelo, la estructura de los conjuntos de datos de entrenamiento, el proceso de entrenamiento y los resultados de la evaluación. Además, explicaremos la métrica de precisión utilizada en nuestro caso y demostraremos que SRBerta logra un alto nivel de precisión para la tarea de modelado de lenguaje enmascarado en textos legales serbios en cirílico. Finalmente, el modelo SRBerta y los conjuntos de datos de entrenamiento están disponibles públicamente para fines científicos y comerciales.
Descripción
El lenguaje es una habilidad única de los seres humanos. Aunque relativamente simple para los humanos, la capacidad de entender el lenguaje humano es una tarea altamente compleja para las máquinas. Para que una máquina aprenda un idioma particular, debe entender no solo las palabras y las reglas utilizadas en un idioma específico, sino también el contexto de las oraciones y el significado que las palabras adquieren en un contexto particular. En el desarrollo experimental que presentamos en este documento, el objetivo fue el desarrollo del modelo de lenguaje SRBerta, un modelo de lenguaje diseñado para entender el lenguaje formal de los documentos legales serbios. SRBerta es el primero de su tipo, ya que ha sido entrenado utilizando textos legales en cirílico contenidos en un conjunto de datos creado específicamente para este propósito. El objetivo principal del desarrollo de la red SRBerta fue entender el lenguaje formal de la legislación serbia. El proceso de entrenamiento se llevó a cabo utilizando recursos mínimos (una sola GPU NVIDIA Quadro RTX 5000) y se realizó en dos fases: entrenamiento del modelo base y ajuste fino. Presentaremos la estructura del modelo, la estructura de los conjuntos de datos de entrenamiento, el proceso de entrenamiento y los resultados de la evaluación. Además, explicaremos la métrica de precisión utilizada en nuestro caso y demostraremos que SRBerta logra un alto nivel de precisión para la tarea de modelado de lenguaje enmascarado en textos legales serbios en cirílico. Finalmente, el modelo SRBerta y los conjuntos de datos de entrenamiento están disponibles públicamente para fines científicos y comerciales.