logo móvil
Contáctanos

Optimizando pequeños BERTs entrenados para NER en alemán

Autores: Zöllner, Jochen; Sperfeld, Konrad; Wick, Christoph; Labahn, Roger

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Optimizando pequeños BERTs entrenados para NER en alemán


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Arquitectura de red neuronal
BERT
Tareas de PLN
Parámetros
Técnicas de entrenamiento
Reconocimiento de Entidades Nombradas en alemán

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Actualmente, la arquitectura de red neuronal más extendida para entrenar modelos de lenguaje es la llamada BERT, que ha llevado a mejoras en varias tareas de Procesamiento de Lenguaje Natural (NLP). En general, cuanto mayor es el número de parámetros en un modelo BERT, mejores son los resultados obtenidos en estas tareas de NLP. Desafortunadamente, el consumo de memoria y la duración del entrenamiento aumentan drásticamente con el tamaño de estos modelos. En este artículo, investigamos varias técnicas de entrenamiento de modelos BERT más pequeños: combinamos diferentes métodos de otras variantes de BERT, como ALBERT, RoBERTa y codificación posicional relativa. Además, proponemos dos nuevas modificaciones de ajuste fino que conducen a un mejor rendimiento: etiquetado Class-Start-End y una forma modificada de Campos Aleatorios Condicionales de Cadena Lineal. Además, introducimos la Atención de Palabra Completa, que reduce el uso de memoria de BERT y conduce a un pequeño aumento en el rendimiento en comparación con la Atención Multi-Cabeza clásica. Evaluamos estas técnicas en cinco tareas públicas de Reconocimiento de Entidades Nombradas (NER) en alemán, de las cuales dos son introducidas por este artículo.

Otros recursos que podrían interesarte

Temas Virtualpro