logo móvil
Contáctanos

Resumen de texto en árabe multidocumental basado en agrupamiento y Word2Vec para reducir la redundancia

Autores: Abdulateef, Samer; Khan, Naseer Ahmed; Chen, Bolin; Shang, Xuequn

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Resumen de texto en árabe multidocumental basado en agrupamiento y Word2Vec para reducir la redundancia


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Minería de texto
Resumen
Word2vec
Algoritmo k-means
ROUGE

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El árabe es uno de los idiomas más semántica y sintácticamente complejos del mundo. Un problema clave en la minería de textos es la resumición de textos, por lo que proponemos un método basado en puntuaciones no supervisado que combina el modelo de espacio vectorial, el modelo de bolsa de palabras continua (CBOW), la agrupación y un método basado en estadísticas. Los problemas con la resumición de textos multidocumento son los datos ruidosos, la redundancia, la disminución de la legibilidad y la incoherencia de las oraciones. En este estudio, adoptamos una estrategia de preprocesamiento para resolver el problema del ruido y utilizamos el modelo word2vec para dos propósitos: primero, para mapear las palabras a vectores de longitud fija y, segundo, para obtener la relación semántica entre cada vector basada en las dimensiones. De manera similar, utilizamos un algoritmo k-means para dos propósitos: (1) seleccionar los documentos distintivos y tokenizar estos documentos en oraciones, y (2) usar otra iteración del algoritmo k-means para seleccionar las oraciones clave basadas en la métrica de similitud para superar el problema de redundancia y generar el resumen inicial. Por último, utilizamos el análisis de componentes principales ponderado (W-PCA) para mapear los pesos codificados de las oraciones basados en una lista de características. Esto selecciona el conjunto más alto de pesos, que se relaciona con oraciones importantes para resolver problemas de incoherencia y legibilidad. Adoptamos Recall-Oriented Understudy for Gisting Evaluation (ROUGE) como medida de evaluación para examinar nuestra técnica propuesta y compararla con métodos de vanguardia. Finalmente, un experimento en el Corpus de Resúmenes Árabes de Essex (EASC) utilizando las métricas ROUGE-1 y ROUGE-2 mostró resultados prometedores en comparación con los métodos existentes.

Otros recursos que podrían interesarte

Temas Virtualpro