Rglove: un enfoque mejorado de vectores globales para la representación de relaciones de entidades distribucionales
Autores: Chen, Ziyan; Huang, Yu; Liang, Yuexian; Wang, Yang; Fu, Xingyu; Fu, Kun
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Rglove: un enfoque mejorado de vectores globales para la representación de relaciones de entidades distribucionales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Extracción de relaciones
Métodos no supervisados
Representaciones distribucionales de palabras
Vectores de entidades
Similitud semántica
Neo4j
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
La mayoría de los trabajos anteriores sobre extracción de relaciones entre entidades nombradas a menudo se limitan a extraer los tipos predefinidos; lo cual es ineficiente para datos de texto no etiquetados masivos. Recientemente; con la aparición de varias representaciones distribucionales de palabras; los métodos no supervisados para muchas tareas de procesamiento del lenguaje natural (NLP) han sido ampliamente investigados. En este documento; nos enfocamos en un nuevo hallazgo de extracción de relaciones no supervisada; que se llama representación de relación distribucional. Sin requerir los tipos predefinidos; la representación de relación distribucional tiene como objetivo aprender automáticamente vectores de entidades y estimar más adelante la similitud semántica entre estas entidades. Elegimos los vectores globales (GloVe) como nuestro modelo original para entrenar vectores de entidades debido a su excelente equilibrio entre contexto local y estadísticas globales en todo el corpus. Para entrenar el modelo de manera más eficiente; mejoramos el modelo tradicional de GloVe utilizando la similitud del coseno entre vectores de entidades para aproximar las ocurrencias de las entidades en lugar del producto punto. Debido a que la similitud del coseno puede convertir el vector en un vector unitario; es intuitivamente más razonable y converge más fácilmente a un óptimo local. Llamamos al modelo mejorado RGloVe. Los resultados experimentales en un corpus masivo de Sina News muestran que nuestro modelo propuesto supera a los vectores globales tradicionales. Finalmente; se introduce una base de datos de gráficos de Neo4j para almacenar estas relaciones entre entidades nombradas. La ventaja competitiva más destacada de Neo4j es que proporciona una forma altamente accesible de consultar las relaciones directas e indirectas entre entidades.
Descripción
La mayoría de los trabajos anteriores sobre extracción de relaciones entre entidades nombradas a menudo se limitan a extraer los tipos predefinidos; lo cual es ineficiente para datos de texto no etiquetados masivos. Recientemente; con la aparición de varias representaciones distribucionales de palabras; los métodos no supervisados para muchas tareas de procesamiento del lenguaje natural (NLP) han sido ampliamente investigados. En este documento; nos enfocamos en un nuevo hallazgo de extracción de relaciones no supervisada; que se llama representación de relación distribucional. Sin requerir los tipos predefinidos; la representación de relación distribucional tiene como objetivo aprender automáticamente vectores de entidades y estimar más adelante la similitud semántica entre estas entidades. Elegimos los vectores globales (GloVe) como nuestro modelo original para entrenar vectores de entidades debido a su excelente equilibrio entre contexto local y estadísticas globales en todo el corpus. Para entrenar el modelo de manera más eficiente; mejoramos el modelo tradicional de GloVe utilizando la similitud del coseno entre vectores de entidades para aproximar las ocurrencias de las entidades en lugar del producto punto. Debido a que la similitud del coseno puede convertir el vector en un vector unitario; es intuitivamente más razonable y converge más fácilmente a un óptimo local. Llamamos al modelo mejorado RGloVe. Los resultados experimentales en un corpus masivo de Sina News muestran que nuestro modelo propuesto supera a los vectores globales tradicionales. Finalmente; se introduce una base de datos de gráficos de Neo4j para almacenar estas relaciones entre entidades nombradas. La ventaja competitiva más destacada de Neo4j es que proporciona una forma altamente accesible de consultar las relaciones directas e indirectas entre entidades.