Un modelo conjunto de dos etapas para la detección y vinculación de entidades específicas de dominio aprovechando un corpus no etiquetado
Autores: Zhang, Hongzhi; Zhang, Weili; Huang, Tinglei; Liang, Xiao; Fu, Kun
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Un modelo conjunto de dos etapas para la detección y vinculación de entidades específicas de dominio aprovechando un corpus no etiquetado
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Bases de conocimiento específicas de dominio
Detección y vinculación de entidades
Modelos conjuntos
Desequilibrio de datos
Métodos de representación de características
Menciones de entidades
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La construcción intensiva de bases de conocimiento específicas de dominio (DSKB) ha planteado una demanda urgente de investigaciones sobre la detección y vinculación de entidades específicas de dominio (DSEDL). Los modelos conjuntos suelen ser adoptados en tareas de DSEDL, pero existen problemas de desequilibrio de datos y alta complejidad computacional en estos modelos. Además, los métodos tradicionales de representación de características son insuficientes para tareas específicas de dominio, debido a problemas como la falta de datos etiquetados, la escasez de enlaces en las DSKB, entre otros. En este artículo, se propone un modelo conjunto de dos etapas (TSJ) para resolver el problema del desequilibrio de datos procesando de manera discriminativa las menciones de entidades con diferentes grados de ambigüedad. Además, se presentan tres métodos novedosos para generar características efectivas incorporando un corpus no etiquetado. Una característica crucial relacionada con la detección de entidades es el tipo de mención, extraído por un modelo de memoria a largo y corto plazo (LSTM) entrenado con datos anotados automáticamente. Los otros dos tipos de características se centran principalmente en la vinculación de entidades, incluyendo la coherencia temática dentro del documento, que se mide en función de las relaciones de coocurrencia de entidades en el corpus, y la coherencia de entidades entre documentos evaluada utilizando documentos similares. Se obtiene un valor F1 general del 74.26% en un conjunto de datos de comentarios de películas del mundo real, lo que demuestra la efectividad del enfoque propuesto e indica su potencial para ser utilizado en aplicaciones específicas de dominio en el mundo real.
Descripción
La construcción intensiva de bases de conocimiento específicas de dominio (DSKB) ha planteado una demanda urgente de investigaciones sobre la detección y vinculación de entidades específicas de dominio (DSEDL). Los modelos conjuntos suelen ser adoptados en tareas de DSEDL, pero existen problemas de desequilibrio de datos y alta complejidad computacional en estos modelos. Además, los métodos tradicionales de representación de características son insuficientes para tareas específicas de dominio, debido a problemas como la falta de datos etiquetados, la escasez de enlaces en las DSKB, entre otros. En este artículo, se propone un modelo conjunto de dos etapas (TSJ) para resolver el problema del desequilibrio de datos procesando de manera discriminativa las menciones de entidades con diferentes grados de ambigüedad. Además, se presentan tres métodos novedosos para generar características efectivas incorporando un corpus no etiquetado. Una característica crucial relacionada con la detección de entidades es el tipo de mención, extraído por un modelo de memoria a largo y corto plazo (LSTM) entrenado con datos anotados automáticamente. Los otros dos tipos de características se centran principalmente en la vinculación de entidades, incluyendo la coherencia temática dentro del documento, que se mide en función de las relaciones de coocurrencia de entidades en el corpus, y la coherencia de entidades entre documentos evaluada utilizando documentos similares. Se obtiene un valor F1 general del 74.26% en un conjunto de datos de comentarios de películas del mundo real, lo que demuestra la efectividad del enfoque propuesto e indica su potencial para ser utilizado en aplicaciones específicas de dominio en el mundo real.