logo móvil
Contáctanos

Aprendizaje por Transferencia para el Reconocimiento de Entidades Nombradas en Documentos Financieros y Biomédicos

Autores: Francis, Sumam; Van Landeghem, Jordy; Moens, Marie-Francine

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Aprendizaje por Transferencia para el Reconocimiento de Entidades Nombradas en Documentos Financieros y Biomédicos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje profundo
Reconocimiento de entidades nombradas
Datos de entrenamiento
Aprendizaje por transferencia
Modelos de lenguaje
BERT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los enfoques recientes de aprendizaje profundo han mostrado resultados prometedores para el reconocimiento de entidades nombradas (NER). Una suposición razonable para entrenar modelos robustos de aprendizaje profundo es que hay una cantidad suficiente de datos de entrenamiento anotados de alta calidad disponibles. Sin embargo, en muchos escenarios del mundo real, los datos de entrenamiento etiquetados son escasos. En este documento consideramos dos casos de uso: la extracción de entidades genéricas de documentos financieros y de documentos biomédicos. Primero, hemos desarrollado un modelo basado en caracteres para NER en documentos financieros y un modelo basado en palabras y caracteres con atención para NER en documentos biomédicos. Además, hemos analizado cómo el aprendizaje por transferencia aborda el problema de la limitada cantidad de datos de entrenamiento en un dominio objetivo. Demostramos a través de experimentos que los modelos NER entrenados con datos etiquetados de un dominio fuente pueden ser utilizados como modelos base y luego ser ajustados con pocos datos etiquetados para el reconocimiento de diferentes clases de entidades nombradas en un dominio objetivo. También somos testigos de un interés en los modelos de lenguaje para mejorar NER como una forma de hacer frente a la limitada cantidad de datos etiquetados. El modelo de lenguaje más exitoso en la actualidad es BERT. Debido a su éxito en modelos de vanguardia, integramos representaciones basadas en BERT en nuestro modelo NER biomédico junto con información de palabras y caracteres. Los resultados se comparan con un modelo de vanguardia aplicado a un corpus biomédico de referencia.

Otros recursos que podrían interesarte

Temas Virtualpro