Identificación de pares de documentos-resumen de alta calidad a través de la coincidencia de texto
Autores: Hou, Yongshuai; Xiang, Yang; Tang, Buzhou; Chen, Qingcai; Wang, Xiaolong; Zhu, Fangze
Idioma: Inglés
Editor: MDPI
Año: 2017
Acceso abierto
Artículo científico
2017
Identificación de pares de documentos-resumen de alta calidad a través de la coincidencia de texto
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Resumen de texto
Aprendizaje profundo
Procesamiento de lenguaje natural
Modelo basado en LSTM
Conjuntos de datos de alta calidad
Pares de documento-resumen
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La resumición de textos, es decir, la generación automática de un resumen corto de un documento dado, es una tarea difícil en el procesamiento del lenguaje natural. Hoy en día, el aprendizaje profundo como una nueva técnica se ha implementado gradualmente para la resumición de textos, pero aún falta un conjunto de datos de alta calidad a gran escala para esta técnica. En este artículo, proponemos un nuevo método de aprendizaje profundo para identificar pares de documentos y resúmenes de alta calidad para construir un conjunto de datos de pares a gran escala. Concretamente, se diseñó un modelo basado en memoria a largo y corto plazo (LSTM) para medir la calidad de los pares de documentos y resúmenes. Con el fin de aprovechar la información en todas las partes de cada documento, además propusimos un modelo mejorado basado en LSTM al eliminar la puerta de olvido en la unidad LSTM. Los experimentos realizados en el conjunto de entrenamiento y el conjunto de prueba construidos sobre Sina Weibo (un sitio web de microblogging chino similar a Twitter) mostraron que los modelos basados en LSTM superaron significativamente a los modelos de referencia en cuanto al valor del área bajo la curva de características operativas del receptor (AUC).
Descripción
La resumición de textos, es decir, la generación automática de un resumen corto de un documento dado, es una tarea difícil en el procesamiento del lenguaje natural. Hoy en día, el aprendizaje profundo como una nueva técnica se ha implementado gradualmente para la resumición de textos, pero aún falta un conjunto de datos de alta calidad a gran escala para esta técnica. En este artículo, proponemos un nuevo método de aprendizaje profundo para identificar pares de documentos y resúmenes de alta calidad para construir un conjunto de datos de pares a gran escala. Concretamente, se diseñó un modelo basado en memoria a largo y corto plazo (LSTM) para medir la calidad de los pares de documentos y resúmenes. Con el fin de aprovechar la información en todas las partes de cada documento, además propusimos un modelo mejorado basado en LSTM al eliminar la puerta de olvido en la unidad LSTM. Los experimentos realizados en el conjunto de entrenamiento y el conjunto de prueba construidos sobre Sina Weibo (un sitio web de microblogging chino similar a Twitter) mostraron que los modelos basados en LSTM superaron significativamente a los modelos de referencia en cuanto al valor del área bajo la curva de características operativas del receptor (AUC).