Resumen de texto en árabe multidocumental basado en agrupamiento y Word2Vec para reducir la redundancia

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Resumen de texto en árabe multidocumental basado en agrupamiento y Word2Vec para reducir la redundancia

Autores: Abdulateef, Samer; Khan, Naseer Ahmed; Chen, Bolin; Shang, Xuequn

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Resumen de texto en árabe multidocumental basado en agrupamiento y Word2Vec para reducir la redundancia

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Minería de texto

Resumen

Word2vec

Algoritmo k-means

ROUGE

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El árabe es uno de los idiomas más semántica y sintácticamente complejos del mundo. Un problema clave en la minería de textos es la resumición de textos, por lo que proponemos un método basado en puntuaciones no supervisado que combina el modelo de espacio vectorial, el modelo de bolsa de palabras continua (CBOW), la agrupación y un método basado en estadísticas. Los problemas con la resumición de textos multidocumento son los datos ruidosos, la redundancia, la disminución de la legibilidad y la incoherencia de las oraciones. En este estudio, adoptamos una estrategia de preprocesamiento para resolver el problema del ruido y utilizamos el modelo word2vec para dos propósitos: primero, para mapear las palabras a vectores de longitud fija y, segundo, para obtener la relación semántica entre cada vector basada en las dimensiones. De manera similar, utilizamos un algoritmo k-means para dos propósitos: (1) seleccionar los documentos distintivos y tokenizar estos documentos en oraciones, y (2) usar otra iteración del algoritmo k-means para seleccionar las oraciones clave basadas en la métrica de similitud para superar el problema de redundancia y generar el resumen inicial. Por último, utilizamos el análisis de componentes principales ponderado (W-PCA) para mapear los pesos codificados de las oraciones basados en una lista de características. Esto selecciona el conjunto más alto de pesos, que se relaciona con oraciones importantes para resolver problemas de incoherencia y legibilidad. Adoptamos Recall-Oriented Understudy for Gisting Evaluation (ROUGE) como medida de evaluación para examinar nuestra técnica propuesta y compararla con métodos de vanguardia. Finalmente, un experimento en el Corpus de Resúmenes Árabes de Essex (EASC) utilizando las métricas ROUGE-1 y ROUGE-2 mostró resultados prometedores en comparación con los métodos existentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro