Un Modelo de Gráfico Integrado para la Resumición de Documentos
Autores: Yang, Kang; Al-Sabahi, Kamal; Xiang, Yanmin; Zhang, Zuping
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Un Modelo de Gráfico Integrado para la Resumición de Documentos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Resumen extractivo
Modelo basado en grafos
IGraph
Modelo de incrustación mejorado
Grafos semánticos
TextRank
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La resumación extractiva tiene como objetivo producir una versión concisa de un documento extrayendo oraciones ricas en información de los textos originales. El modelo basado en grafos es un enfoque efectivo y eficiente para clasificar oraciones, ya que es simple y fácil de usar. Sin embargo, su rendimiento depende en gran medida de una buena representación del texto. En este artículo, se propone un modelo de grafo integrado (iGraph) para la resumación extractiva de textos. Se utiliza un modelo de incrustación mejorado para detectar las propiedades semánticas inherentes a nivel de palabra, bigrama y trigramas. Se extrajeron palabras con etiquetas de parte de discurso (POS), bigramas y trigramas para entrenar los modelos de incrustación. Basado en los vectores de incrustación mejorados, se calcularon los valores de similitud entre las oraciones desde tres perspectivas. Las oraciones en el documento se trataron como vértices y la similitud entre ellas como aristas. Como resultado, se obtuvieron tres tipos diferentes de grafos semánticos para cada documento, con los mismos nodos y diferentes aristas. Estos tres grafos se integraron en un único grafo semántico enriquecido de manera ingenua bayesiana. Después de eso, se aplicó TextRank, que es un algoritmo de clasificación basado en grafos, para clasificar las oraciones, antes de que se seleccionaran las oraciones con mejor puntuación para el resumen de acuerdo con la tasa de compresión. Evaluado en los conjuntos de datos DUC 2002 y DUC 2004, nuestro método propuesto muestra un rendimiento competitivo en comparación con los métodos de última generación.
Descripción
La resumación extractiva tiene como objetivo producir una versión concisa de un documento extrayendo oraciones ricas en información de los textos originales. El modelo basado en grafos es un enfoque efectivo y eficiente para clasificar oraciones, ya que es simple y fácil de usar. Sin embargo, su rendimiento depende en gran medida de una buena representación del texto. En este artículo, se propone un modelo de grafo integrado (iGraph) para la resumación extractiva de textos. Se utiliza un modelo de incrustación mejorado para detectar las propiedades semánticas inherentes a nivel de palabra, bigrama y trigramas. Se extrajeron palabras con etiquetas de parte de discurso (POS), bigramas y trigramas para entrenar los modelos de incrustación. Basado en los vectores de incrustación mejorados, se calcularon los valores de similitud entre las oraciones desde tres perspectivas. Las oraciones en el documento se trataron como vértices y la similitud entre ellas como aristas. Como resultado, se obtuvieron tres tipos diferentes de grafos semánticos para cada documento, con los mismos nodos y diferentes aristas. Estos tres grafos se integraron en un único grafo semántico enriquecido de manera ingenua bayesiana. Después de eso, se aplicó TextRank, que es un algoritmo de clasificación basado en grafos, para clasificar las oraciones, antes de que se seleccionaran las oraciones con mejor puntuación para el resumen de acuerdo con la tasa de compresión. Evaluado en los conjuntos de datos DUC 2002 y DUC 2004, nuestro método propuesto muestra un rendimiento competitivo en comparación con los métodos de última generación.