SRBerta-Un modelo de lenguaje Transformer para textos legales en cirílico serbio

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

SRBerta-Un modelo de lenguaje Transformer para textos legales en cirílico serbio

Autores: Bogdanovi, Milo; Koci, Jelena; Stoimenov, Leonid

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

SRBerta-Un modelo de lenguaje Transformer para textos legales en cirílico serbio

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Lenguaje

Aprendizaje automático

SRBerta

Documentos legales serbios

Proceso de entrenamiento

Métrica de precisión

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El lenguaje es una habilidad única de los seres humanos. Aunque relativamente simple para los humanos, la capacidad de entender el lenguaje humano es una tarea altamente compleja para las máquinas. Para que una máquina aprenda un idioma particular, debe entender no solo las palabras y las reglas utilizadas en un idioma específico, sino también el contexto de las oraciones y el significado que las palabras adquieren en un contexto particular. En el desarrollo experimental que presentamos en este documento, el objetivo fue el desarrollo del modelo de lenguaje SRBerta, un modelo de lenguaje diseñado para entender el lenguaje formal de los documentos legales serbios. SRBerta es el primero de su tipo, ya que ha sido entrenado utilizando textos legales en cirílico contenidos en un conjunto de datos creado específicamente para este propósito. El objetivo principal del desarrollo de la red SRBerta fue entender el lenguaje formal de la legislación serbia. El proceso de entrenamiento se llevó a cabo utilizando recursos mínimos (una sola GPU NVIDIA Quadro RTX 5000) y se realizó en dos fases: entrenamiento del modelo base y ajuste fino. Presentaremos la estructura del modelo, la estructura de los conjuntos de datos de entrenamiento, el proceso de entrenamiento y los resultados de la evaluación. Además, explicaremos la métrica de precisión utilizada en nuestro caso y demostraremos que SRBerta logra un alto nivel de precisión para la tarea de modelado de lenguaje enmascarado en textos legales serbios en cirílico. Finalmente, el modelo SRBerta y los conjuntos de datos de entrenamiento están disponibles públicamente para fines científicos y comerciales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro