Optimizando pequeños BERTs entrenados para NER en alemán
Autores: Zöllner, Jochen; Sperfeld, Konrad; Wick, Christoph; Labahn, Roger
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Optimizando pequeños BERTs entrenados para NER en alemán
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Arquitectura de red neuronal
BERT
Tareas de PLN
Parámetros
Técnicas de entrenamiento
Reconocimiento de Entidades Nombradas en alemán
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Actualmente, la arquitectura de red neuronal más extendida para entrenar modelos de lenguaje es la llamada BERT, que ha llevado a mejoras en varias tareas de Procesamiento de Lenguaje Natural (NLP). En general, cuanto mayor es el número de parámetros en un modelo BERT, mejores son los resultados obtenidos en estas tareas de NLP. Desafortunadamente, el consumo de memoria y la duración del entrenamiento aumentan drásticamente con el tamaño de estos modelos. En este artículo, investigamos varias técnicas de entrenamiento de modelos BERT más pequeños: combinamos diferentes métodos de otras variantes de BERT, como ALBERT, RoBERTa y codificación posicional relativa. Además, proponemos dos nuevas modificaciones de ajuste fino que conducen a un mejor rendimiento: etiquetado Class-Start-End y una forma modificada de Campos Aleatorios Condicionales de Cadena Lineal. Además, introducimos la Atención de Palabra Completa, que reduce el uso de memoria de BERT y conduce a un pequeño aumento en el rendimiento en comparación con la Atención Multi-Cabeza clásica. Evaluamos estas técnicas en cinco tareas públicas de Reconocimiento de Entidades Nombradas (NER) en alemán, de las cuales dos son introducidas por este artículo.
Descripción
Actualmente, la arquitectura de red neuronal más extendida para entrenar modelos de lenguaje es la llamada BERT, que ha llevado a mejoras en varias tareas de Procesamiento de Lenguaje Natural (NLP). En general, cuanto mayor es el número de parámetros en un modelo BERT, mejores son los resultados obtenidos en estas tareas de NLP. Desafortunadamente, el consumo de memoria y la duración del entrenamiento aumentan drásticamente con el tamaño de estos modelos. En este artículo, investigamos varias técnicas de entrenamiento de modelos BERT más pequeños: combinamos diferentes métodos de otras variantes de BERT, como ALBERT, RoBERTa y codificación posicional relativa. Además, proponemos dos nuevas modificaciones de ajuste fino que conducen a un mejor rendimiento: etiquetado Class-Start-End y una forma modificada de Campos Aleatorios Condicionales de Cadena Lineal. Además, introducimos la Atención de Palabra Completa, que reduce el uso de memoria de BERT y conduce a un pequeño aumento en el rendimiento en comparación con la Atención Multi-Cabeza clásica. Evaluamos estas técnicas en cinco tareas públicas de Reconocimiento de Entidades Nombradas (NER) en alemán, de las cuales dos son introducidas por este artículo.