logo móvil
Contáctanos

Esquema de puntuación de oraciones para la resumición de texto extractiva basada en grafos para aplicaciones de Big Data

Autores: Verma, Jai Prakash; Bhargav, Shir; Bhavsar, Madhuri; Bhattacharya, Pronaya; Bostani, Ali; Chowdhury, Subrata; Webber, Julian; Mehbodniya, Abolfazl

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Esquema de puntuación de oraciones para la resumición de texto extractiva basada en grafos para aplicaciones de Big Data


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Avances
Minería de texto
Resumir
Basado en grafos
Esquema
Evaluación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los recientes avances en big data y procesamiento de lenguaje natural (NLP) han hecho necesario contar con esquemas de minería de texto (TM) que puedan interpretar y analizar volúmenes masivos de datos textuales. La resumición de texto (TS) actúa como un pilar esencial dentro de los motores de recomendación. A pesar del uso prevalente de técnicas abstractivas en TS, se está haciendo evidente un cambio anticipado hacia un esquema de TS extractivo basado en grafos (ETS). Los modelos, aunque más simples y menos intensivos en recursos, son clave para evaluar reseñas y comentarios sobre productos o servicios. No obstante, las metodologías actuales no han resuelto completamente las preocupaciones en torno a la complejidad, adaptabilidad y demandas computacionales. Por lo tanto, proponemos nuestro esquema, GETS, que utiliza un modelo basado en grafos para forjar conexiones entre palabras y oraciones a través de procedimientos estadísticos. La estructura abarca una etapa de post-procesamiento que incluye agrupamiento de oraciones basado en grafos. Empleando el marco de trabajo Apache Spark, el esquema está diseñado para ejecución paralela, lo que lo hace adaptable a aplicaciones del mundo real. Para la evaluación, seleccionamos 500 documentos de los conjuntos de datos WikiHow y Opinosis, los categorizamos en cinco clases y aplicamos los parámetros de evaluación de gisting orientados a la recuperación (ROUGE) para comparación con las medidas ROUGE-1, 2 y L. Los resultados incluyen puntuaciones de recuperación de 0.3942, 0.0952 y 0.3436 para ROUGE-1, 2 y L, respectivamente (cuando se utiliza el enfoque agrupado). A través de una comparación con modelos existentes como BERTEXT (con 3-grama, 4-grama) y MATCHSUM, nuestro esquema ha demostrado mejoras notables, sustentando su aplicabilidad y efectividad en escenarios del mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro