Esquema de puntuación de oraciones para la resumición de texto extractiva basada en grafos para aplicaciones de Big Data
Autores: Verma, Jai Prakash; Bhargav, Shir; Bhavsar, Madhuri; Bhattacharya, Pronaya; Bostani, Ali; Chowdhury, Subrata; Webber, Julian; Mehbodniya, Abolfazl
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Esquema de puntuación de oraciones para la resumición de texto extractiva basada en grafos para aplicaciones de Big Data
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Avances
Minería de texto
Resumir
Basado en grafos
Esquema
Evaluación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los recientes avances en big data y procesamiento de lenguaje natural (NLP) han hecho necesario contar con esquemas de minería de texto (TM) que puedan interpretar y analizar volúmenes masivos de datos textuales. La resumición de texto (TS) actúa como un pilar esencial dentro de los motores de recomendación. A pesar del uso prevalente de técnicas abstractivas en TS, se está haciendo evidente un cambio anticipado hacia un esquema de TS extractivo basado en grafos (ETS). Los modelos, aunque más simples y menos intensivos en recursos, son clave para evaluar reseñas y comentarios sobre productos o servicios. No obstante, las metodologías actuales no han resuelto completamente las preocupaciones en torno a la complejidad, adaptabilidad y demandas computacionales. Por lo tanto, proponemos nuestro esquema, GETS, que utiliza un modelo basado en grafos para forjar conexiones entre palabras y oraciones a través de procedimientos estadísticos. La estructura abarca una etapa de post-procesamiento que incluye agrupamiento de oraciones basado en grafos. Empleando el marco de trabajo Apache Spark, el esquema está diseñado para ejecución paralela, lo que lo hace adaptable a aplicaciones del mundo real. Para la evaluación, seleccionamos 500 documentos de los conjuntos de datos WikiHow y Opinosis, los categorizamos en cinco clases y aplicamos los parámetros de evaluación de gisting orientados a la recuperación (ROUGE) para comparación con las medidas ROUGE-1, 2 y L. Los resultados incluyen puntuaciones de recuperación de 0.3942, 0.0952 y 0.3436 para ROUGE-1, 2 y L, respectivamente (cuando se utiliza el enfoque agrupado). A través de una comparación con modelos existentes como BERTEXT (con 3-grama, 4-grama) y MATCHSUM, nuestro esquema ha demostrado mejoras notables, sustentando su aplicabilidad y efectividad en escenarios del mundo real.
Descripción
Los recientes avances en big data y procesamiento de lenguaje natural (NLP) han hecho necesario contar con esquemas de minería de texto (TM) que puedan interpretar y analizar volúmenes masivos de datos textuales. La resumición de texto (TS) actúa como un pilar esencial dentro de los motores de recomendación. A pesar del uso prevalente de técnicas abstractivas en TS, se está haciendo evidente un cambio anticipado hacia un esquema de TS extractivo basado en grafos (ETS). Los modelos, aunque más simples y menos intensivos en recursos, son clave para evaluar reseñas y comentarios sobre productos o servicios. No obstante, las metodologías actuales no han resuelto completamente las preocupaciones en torno a la complejidad, adaptabilidad y demandas computacionales. Por lo tanto, proponemos nuestro esquema, GETS, que utiliza un modelo basado en grafos para forjar conexiones entre palabras y oraciones a través de procedimientos estadísticos. La estructura abarca una etapa de post-procesamiento que incluye agrupamiento de oraciones basado en grafos. Empleando el marco de trabajo Apache Spark, el esquema está diseñado para ejecución paralela, lo que lo hace adaptable a aplicaciones del mundo real. Para la evaluación, seleccionamos 500 documentos de los conjuntos de datos WikiHow y Opinosis, los categorizamos en cinco clases y aplicamos los parámetros de evaluación de gisting orientados a la recuperación (ROUGE) para comparación con las medidas ROUGE-1, 2 y L. Los resultados incluyen puntuaciones de recuperación de 0.3942, 0.0952 y 0.3436 para ROUGE-1, 2 y L, respectivamente (cuando se utiliza el enfoque agrupado). A través de una comparación con modelos existentes como BERTEXT (con 3-grama, 4-grama) y MATCHSUM, nuestro esquema ha demostrado mejoras notables, sustentando su aplicabilidad y efectividad en escenarios del mundo real.