Extracción de resúmenes de artículos mediante el uso del algoritmo integrado TextRank y BM25+
Autores: Gulati, Vaibhav; Kumar, Deepika; Popescu, Daniela Elena; Hemanth, Jude D.
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Extracción de resúmenes de artículos mediante el uso del algoritmo integrado TextRank y BM25+
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Internet
Datos
Resumen de texto
Algoritmo
Metodología
Evaluación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
La cantidad de datos textuales en internet está creciendo exponencialmente, y es una tarea muy difícil obtener información importante y relevante de ella. Se requiere un método eficiente y efectivo que proporcione un resumen conciso de un artículo. Esto se puede lograr mediante el uso de la sumarización automática de textos. En esta investigación, los autores sugirieron un enfoque eficiente para la sumarización de textos donde se genera un resumen extractivo a partir de un artículo. La metodología fue modificada al integrar una matriz de similitud normalizada de ambos algoritmos BM25+ y TextRank convencional, lo que resultó en resultados mejorados. Se genera un grafo tomando las oraciones del artículo como nodos y los pesos de las aristas como la puntuación de similitud entre dos oraciones. Se seleccionan los nodos de rango máximo y se extrae el resumen. La evaluación empírica de la metodología propuesta fue analizada y comparada con métodos de referencia, a saber, el algoritmo TextRank convencional, la frecuencia de términos-inversa de frecuencia de documentos (TF-IDF) coseno, la consecuencia común más larga (LCS) y BM25+ tomando precisión, recuperación y puntuación F1 como criterios de evaluación. Se calcularon las puntuaciones ROUGE-1, ROUGE-2 y ROUGE-L para todos los métodos. Los resultados demuestran que el método propuesto puede resumir eficientemente cualquier artículo independientemente de la categoría a la que pertenezca.
Descripción
La cantidad de datos textuales en internet está creciendo exponencialmente, y es una tarea muy difícil obtener información importante y relevante de ella. Se requiere un método eficiente y efectivo que proporcione un resumen conciso de un artículo. Esto se puede lograr mediante el uso de la sumarización automática de textos. En esta investigación, los autores sugirieron un enfoque eficiente para la sumarización de textos donde se genera un resumen extractivo a partir de un artículo. La metodología fue modificada al integrar una matriz de similitud normalizada de ambos algoritmos BM25+ y TextRank convencional, lo que resultó en resultados mejorados. Se genera un grafo tomando las oraciones del artículo como nodos y los pesos de las aristas como la puntuación de similitud entre dos oraciones. Se seleccionan los nodos de rango máximo y se extrae el resumen. La evaluación empírica de la metodología propuesta fue analizada y comparada con métodos de referencia, a saber, el algoritmo TextRank convencional, la frecuencia de términos-inversa de frecuencia de documentos (TF-IDF) coseno, la consecuencia común más larga (LCS) y BM25+ tomando precisión, recuperación y puntuación F1 como criterios de evaluación. Se calcularon las puntuaciones ROUGE-1, ROUGE-2 y ROUGE-L para todos los métodos. Los resultados demuestran que el método propuesto puede resumir eficientemente cualquier artículo independientemente de la categoría a la que pertenezca.