Esqueleto a Abstracción: Un Esquema de Extracción de Información Atenta para Mejorar la Saliencia de la Resumición de Texto
Autores: Xiang, Xiujuan; Xu, Guangluan; Fu, Xingyu; Wei, Yang; Jin, Li; Wang, Lei
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Esqueleto a Abstracción: Un Esquema de Extracción de Información Atenta para Mejorar la Saliencia de la Resumición de Texto
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Marco de codificador-decodificador atencional
Resumen abstracto
Saliencia
Información importante
Perceptrón multicapa (MLP)
Módulo de similitud
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La actual popularización de la resumición abstractiva se basa en un marco de codificador-decodificador atencional. Según la arquitectura, el decodificador genera un resumen de acuerdo con el texto completo, lo que a menudo resulta en que el decodificador se vea interferido por información irrelevante, causando así que los resúmenes generados sufran de baja saliencia. Además, hemos observado el proceso de las personas al escribir resúmenes y encontramos que escriben un resumen basado en la información necesaria en lugar de en el texto completo. Por lo tanto, con el fin de mejorar la saliencia de la resumición abstractiva, proponemos un modelo de extracción de información atenta. Este consiste en una unidad de puerta de perceptrón multicapa (MLP) que presta más atención a la información importante del texto fuente y un módulo de similitud para fomentar una alta similitud entre el resumen de referencia y la información importante. Antes del decodificador de resúmenes, el MLP y el módulo de similitud trabajan juntos para extraer la información importante para el decodificador, obteniendo así el esqueleto del texto fuente. Esto reduce efectivamente la interferencia de información irrelevante al decodificador, mejorando así la saliencia del resumen. Nuestro modelo propuesto fue probado en los conjuntos de datos CNN/Daily Mail y DUC-2004, logrando un puntaje f de 42.01 en ROUGE-1 y un recall de 33.94 en ROUGE-1, respectivamente. El resultado supera al modelo abstractivo de última generación en el mismo conjunto de datos. Además, mediante una evaluación subjetiva por parte de humanos, la saliencia de los resúmenes generados se mejoró aún más.
Descripción
La actual popularización de la resumición abstractiva se basa en un marco de codificador-decodificador atencional. Según la arquitectura, el decodificador genera un resumen de acuerdo con el texto completo, lo que a menudo resulta en que el decodificador se vea interferido por información irrelevante, causando así que los resúmenes generados sufran de baja saliencia. Además, hemos observado el proceso de las personas al escribir resúmenes y encontramos que escriben un resumen basado en la información necesaria en lugar de en el texto completo. Por lo tanto, con el fin de mejorar la saliencia de la resumición abstractiva, proponemos un modelo de extracción de información atenta. Este consiste en una unidad de puerta de perceptrón multicapa (MLP) que presta más atención a la información importante del texto fuente y un módulo de similitud para fomentar una alta similitud entre el resumen de referencia y la información importante. Antes del decodificador de resúmenes, el MLP y el módulo de similitud trabajan juntos para extraer la información importante para el decodificador, obteniendo así el esqueleto del texto fuente. Esto reduce efectivamente la interferencia de información irrelevante al decodificador, mejorando así la saliencia del resumen. Nuestro modelo propuesto fue probado en los conjuntos de datos CNN/Daily Mail y DUC-2004, logrando un puntaje f de 42.01 en ROUGE-1 y un recall de 33.94 en ROUGE-1, respectivamente. El resultado supera al modelo abstractivo de última generación en el mismo conjunto de datos. Además, mediante una evaluación subjetiva por parte de humanos, la saliencia de los resúmenes generados se mejoró aún más.