logo móvil
Contáctanos

Un modelo conjunto de dos etapas para la detección y vinculación de entidades específicas de dominio aprovechando un corpus no etiquetado

Autores: Zhang, Hongzhi; Zhang, Weili; Huang, Tinglei; Liang, Xiao; Fu, Kun

Idioma: Inglés

Editor: MDPI

Año: 2017

Descargar PDF

Acceso abierto

Artículo científico
2017

Un modelo conjunto de dos etapas para la detección y vinculación de entidades específicas de dominio aprovechando un corpus no etiquetado


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Bases de conocimiento específicas de dominio
Detección y vinculación de entidades
Modelos conjuntos
Desequilibrio de datos
Métodos de representación de características
Menciones de entidades

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La construcción intensiva de bases de conocimiento específicas de dominio (DSKB) ha planteado una demanda urgente de investigaciones sobre la detección y vinculación de entidades específicas de dominio (DSEDL). Los modelos conjuntos suelen ser adoptados en tareas de DSEDL, pero existen problemas de desequilibrio de datos y alta complejidad computacional en estos modelos. Además, los métodos tradicionales de representación de características son insuficientes para tareas específicas de dominio, debido a problemas como la falta de datos etiquetados, la escasez de enlaces en las DSKB, entre otros. En este artículo, se propone un modelo conjunto de dos etapas (TSJ) para resolver el problema del desequilibrio de datos procesando de manera discriminativa las menciones de entidades con diferentes grados de ambigüedad. Además, se presentan tres métodos novedosos para generar características efectivas incorporando un corpus no etiquetado. Una característica crucial relacionada con la detección de entidades es el tipo de mención, extraído por un modelo de memoria a largo y corto plazo (LSTM) entrenado con datos anotados automáticamente. Los otros dos tipos de características se centran principalmente en la vinculación de entidades, incluyendo la coherencia temática dentro del documento, que se mide en función de las relaciones de coocurrencia de entidades en el corpus, y la coherencia de entidades entre documentos evaluada utilizando documentos similares. Se obtiene un valor F1 general del 74.26% en un conjunto de datos de comentarios de películas del mundo real, lo que demuestra la efectividad del enfoque propuesto e indica su potencial para ser utilizado en aplicaciones específicas de dominio en el mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro