Identificación de Conceptos Clave: Un Análisis Integral de Enfoques Basados en Frecuencia y Grafos Temáticos
Autores: Aman, Muhammad; bin Md Said, Abas; Jadid Abdul Kadir, Said; Ullah, Israr
Idioma: Inglés
Editor: MDPI
Año: 2018
Acceso abierto
Artículo científico
2018
Identificación de Conceptos Clave: Un Análisis Integral de Enfoques Basados en Frecuencia y Grafos Temáticos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Extracción automática de conceptos clave
Extracción de información
Recuperación de información
Bibliotecas digitales
Enfoques no supervisados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La extracción automática de conceptos clave del texto es la principal tarea desafiante en la extracción de información, recuperación de información y bibliotecas digitales, aprendizaje de ontologías y análisis de texto. La frecuencia estadística y el ranking basado en gráficos temáticos son los dos tipos de enfoques no supervisados potencialmente poderosos y líderes en esta área, ideados para abordar el problema. Para aprovechar el potencial de estos enfoques y mejorar la identificación de conceptos clave, se necesita un análisis de rendimiento integral de estos enfoques en conjuntos de datos de diferentes dominios. El objetivo del estudio presentado en este artículo es realizar un análisis empírico completo de los algoritmos seleccionados basados en frecuencia y gráficos temáticos para la extracción de conceptos clave en tres conjuntos de datos diferentes, con el fin de identificar las principales fuentes de error en estos enfoques. Para el análisis experimental, hemos seleccionado TF-IDF, KP-Miner y TopicRank. Se identifican tres principales fuentes de error, es decir, errores de frecuencia, errores sintácticos y errores semánticos, así como los factores que contribuyen a estos errores. El análisis de los resultados revela que el rendimiento de los enfoques seleccionados se ve significativamente degradado por estos errores. Estos hallazgos pueden ayudarnos a desarrollar una solución inteligente para la extracción de conceptos clave en el futuro.
Descripción
La extracción automática de conceptos clave del texto es la principal tarea desafiante en la extracción de información, recuperación de información y bibliotecas digitales, aprendizaje de ontologías y análisis de texto. La frecuencia estadística y el ranking basado en gráficos temáticos son los dos tipos de enfoques no supervisados potencialmente poderosos y líderes en esta área, ideados para abordar el problema. Para aprovechar el potencial de estos enfoques y mejorar la identificación de conceptos clave, se necesita un análisis de rendimiento integral de estos enfoques en conjuntos de datos de diferentes dominios. El objetivo del estudio presentado en este artículo es realizar un análisis empírico completo de los algoritmos seleccionados basados en frecuencia y gráficos temáticos para la extracción de conceptos clave en tres conjuntos de datos diferentes, con el fin de identificar las principales fuentes de error en estos enfoques. Para el análisis experimental, hemos seleccionado TF-IDF, KP-Miner y TopicRank. Se identifican tres principales fuentes de error, es decir, errores de frecuencia, errores sintácticos y errores semánticos, así como los factores que contribuyen a estos errores. El análisis de los resultados revela que el rendimiento de los enfoques seleccionados se ve significativamente degradado por estos errores. Estos hallazgos pueden ayudarnos a desarrollar una solución inteligente para la extracción de conceptos clave en el futuro.