Un modelo conjunto de dos etapas para la detección y vinculación de entidades específicas de dominio aprovechando un corpus no etiquetado

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un modelo conjunto de dos etapas para la detección y vinculación de entidades específicas de dominio aprovechando un corpus no etiquetado

Autores: Zhang, Hongzhi; Zhang, Weili; Huang, Tinglei; Liang, Xiao; Fu, Kun

Idioma: Inglés

Editor: MDPI

Año: 2017

Descargar PDF

Acceso abierto

Artículo científico

2017

Un modelo conjunto de dos etapas para la detección y vinculación de entidades específicas de dominio aprovechando un corpus no etiquetado

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Bases de conocimiento específicas de dominio

Detección y vinculación de entidades

Modelos conjuntos

Desequilibrio de datos

Métodos de representación de características

Menciones de entidades

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La construcción intensiva de bases de conocimiento específicas de dominio (DSKB) ha planteado una demanda urgente de investigaciones sobre la detección y vinculación de entidades específicas de dominio (DSEDL). Los modelos conjuntos suelen ser adoptados en tareas de DSEDL, pero existen problemas de desequilibrio de datos y alta complejidad computacional en estos modelos. Además, los métodos tradicionales de representación de características son insuficientes para tareas específicas de dominio, debido a problemas como la falta de datos etiquetados, la escasez de enlaces en las DSKB, entre otros. En este artículo, se propone un modelo conjunto de dos etapas (TSJ) para resolver el problema del desequilibrio de datos procesando de manera discriminativa las menciones de entidades con diferentes grados de ambigüedad. Además, se presentan tres métodos novedosos para generar características efectivas incorporando un corpus no etiquetado. Una característica crucial relacionada con la detección de entidades es el tipo de mención, extraído por un modelo de memoria a largo y corto plazo (LSTM) entrenado con datos anotados automáticamente. Los otros dos tipos de características se centran principalmente en la vinculación de entidades, incluyendo la coherencia temática dentro del documento, que se mide en función de las relaciones de coocurrencia de entidades en el corpus, y la coherencia de entidades entre documentos evaluada utilizando documentos similares. Se obtiene un valor F1 general del 74.26% en un conjunto de datos de comentarios de películas del mundo real, lo que demuestra la efectividad del enfoque propuesto e indica su potencial para ser utilizado en aplicaciones específicas de dominio en el mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro