Mejorando el Rendimiento de los Métodos de Extracción Automática de Palabras Clave (AKE) Usando Etiquetado de Partes del Discurso y Mayor Conciencia Semántica
Autores: Altuncu, Enes; Nurse, Jason R. C.; Xu, Yang; Guo, Jie; Li, Shujun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Mejorando el Rendimiento de los Métodos de Extracción Automática de Palabras Clave (AKE) Usando Etiquetado de Partes del Discurso y Mayor Conciencia Semántica
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Extracción automática de palabras clave
Datos textuales digitales
Recuperación de información
Procesamiento de lenguaje natural
Conciencia semántica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La extracción automática de palabras clave (AKE) ha ganado más importancia con la creciente cantidad de datos textuales digitales que los sistemas informáticos modernos procesan. Tiene diversas aplicaciones en la recuperación de información (IR) y el procesamiento del lenguaje natural (NLP), incluyendo la resumición de textos, el análisis de temas y la indexación de documentos. Este artículo propone un enfoque universal simple pero efectivo basado en el post-procesamiento para mejorar el rendimiento de cualquier método de AKE, a través de un nivel mejorado de conciencia semántica respaldado por el etiquetado de partes del discurso (PoS). Para demostrar el rendimiento del enfoque propuesto, consideramos los tipos de palabras recuperados de un paso de etiquetado PoS y dos fuentes representativas de información semántica: términos especializados definidos en uno o más tesauros dependientes del contexto, y entidades nombradas en Wikipedia. Los tres pasos anteriores se pueden agregar fácilmente al final de cualquier método de AKE como parte de un post-procesador, que simplemente reevalúa todas las palabras clave candidatas siguiendo algunos criterios específicos del contexto y conscientes semánticamente. Para cinco métodos de AKE de última generación (SOTA), nuestros resultados experimentales con 17 conjuntos de datos seleccionados mostraron que el enfoque propuesto mejoró sus rendimientos tanto de manera consistente (hasta un 100% en términos de casos mejorados) como significativamente (entre un 10.2% y un 53.8%, con un promedio del 25.8%, en términos de F1-score y en los cinco métodos), especialmente cuando se utilizan los tres pasos de mejora. Nuestros resultados tienen profundas implicaciones considerando el hecho de que nuestro enfoque propuesto puede aplicarse fácilmente a cualquier método de AKE con la salida estándar (palabras clave candidatas y puntajes) y la facilidad de extenderlo aún más.
Descripción
La extracción automática de palabras clave (AKE) ha ganado más importancia con la creciente cantidad de datos textuales digitales que los sistemas informáticos modernos procesan. Tiene diversas aplicaciones en la recuperación de información (IR) y el procesamiento del lenguaje natural (NLP), incluyendo la resumición de textos, el análisis de temas y la indexación de documentos. Este artículo propone un enfoque universal simple pero efectivo basado en el post-procesamiento para mejorar el rendimiento de cualquier método de AKE, a través de un nivel mejorado de conciencia semántica respaldado por el etiquetado de partes del discurso (PoS). Para demostrar el rendimiento del enfoque propuesto, consideramos los tipos de palabras recuperados de un paso de etiquetado PoS y dos fuentes representativas de información semántica: términos especializados definidos en uno o más tesauros dependientes del contexto, y entidades nombradas en Wikipedia. Los tres pasos anteriores se pueden agregar fácilmente al final de cualquier método de AKE como parte de un post-procesador, que simplemente reevalúa todas las palabras clave candidatas siguiendo algunos criterios específicos del contexto y conscientes semánticamente. Para cinco métodos de AKE de última generación (SOTA), nuestros resultados experimentales con 17 conjuntos de datos seleccionados mostraron que el enfoque propuesto mejoró sus rendimientos tanto de manera consistente (hasta un 100% en términos de casos mejorados) como significativamente (entre un 10.2% y un 53.8%, con un promedio del 25.8%, en términos de F1-score y en los cinco métodos), especialmente cuando se utilizan los tres pasos de mejora. Nuestros resultados tienen profundas implicaciones considerando el hecho de que nuestro enfoque propuesto puede aplicarse fácilmente a cualquier método de AKE con la salida estándar (palabras clave candidatas y puntajes) y la facilidad de extenderlo aún más.