Análisis de contenido utilizando métodos específicos de procesamiento del lenguaje natural para big data
Autores: Pirnau, Mironela; Botezatu, Mihai Alexandru; Priescu, Iustin; Hosszu, Alexandra; Tabusca, Alexandru; Coculescu, Cristina; Oncioiu, Ionica
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Análisis de contenido utilizando métodos específicos de procesamiento del lenguaje natural para big data
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Investigadores
Pandemia de COVID-19
WoS
Métodos de NLP
Análisis de sentimientos
Nube de palabras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 63
Citaciones: Sin citaciones
Investigadores de diferentes campos han estudiado los efectos de la pandemia de COVID-19 y han publicado sus resultados en revistas revisadas por pares indexadas en bases de datos internacionales como Web of Science (WoS), Scopus, PubMed. Enfocándonos en métodos eficientes para navegar por la extensa literatura sobre la investigación de la pandemia de COVID-19, nuestro estudio realiza un análisis de contenido de los 1000 documentos más citados en WoS que abordan el tema utilizando elementos de procesamiento de lenguaje natural (NLP). Sabiendo que en WoS, un documento científico se describe por el grupo Paper = {Abstract, Keyword, Title}; obtuvimos a través de métodos de NLP los diccionarios de palabras con sus frecuencias de uso y la nube de palabras para las 100 palabras más utilizadas, e investigamos si hay un grado de similitud entre los títulos de los documentos y sus resúmenes, respectivamente. Utilizando los paquetes de Python NLTK, TextBlob, VADER, calculamos puntuaciones de sentimiento para los títulos y resúmenes de los documentos, analizamos los resultados y luego, utilizando Azure Machine Learning-Sentiment analysis, ampliamos el rango de comparación de las puntuaciones de sentimiento. Nuestro método de análisis propuesto puede aplicarse a cualquier tema de investigación o temática de documentos, artículos o proyectos en diversos campos de especialización para crear un diccionario mínimo de términos basado en la frecuencia de uso, con representación visual mediante nube de palabras. Complementando el análisis de contenido en nuestra investigación con análisis de sentimiento y similitud resalta el tratamiento diferente o similar de los temas abordados en la investigación, así como las opiniones y sentimientos transmitidos por los autores en relación con el tema investigado.
Descripción
Investigadores de diferentes campos han estudiado los efectos de la pandemia de COVID-19 y han publicado sus resultados en revistas revisadas por pares indexadas en bases de datos internacionales como Web of Science (WoS), Scopus, PubMed. Enfocándonos en métodos eficientes para navegar por la extensa literatura sobre la investigación de la pandemia de COVID-19, nuestro estudio realiza un análisis de contenido de los 1000 documentos más citados en WoS que abordan el tema utilizando elementos de procesamiento de lenguaje natural (NLP). Sabiendo que en WoS, un documento científico se describe por el grupo Paper = {Abstract, Keyword, Title}; obtuvimos a través de métodos de NLP los diccionarios de palabras con sus frecuencias de uso y la nube de palabras para las 100 palabras más utilizadas, e investigamos si hay un grado de similitud entre los títulos de los documentos y sus resúmenes, respectivamente. Utilizando los paquetes de Python NLTK, TextBlob, VADER, calculamos puntuaciones de sentimiento para los títulos y resúmenes de los documentos, analizamos los resultados y luego, utilizando Azure Machine Learning-Sentiment analysis, ampliamos el rango de comparación de las puntuaciones de sentimiento. Nuestro método de análisis propuesto puede aplicarse a cualquier tema de investigación o temática de documentos, artículos o proyectos en diversos campos de especialización para crear un diccionario mínimo de términos basado en la frecuencia de uso, con representación visual mediante nube de palabras. Complementando el análisis de contenido en nuestra investigación con análisis de sentimiento y similitud resalta el tratamiento diferente o similar de los temas abordados en la investigación, así como las opiniones y sentimientos transmitidos por los autores en relación con el tema investigado.