Técnicas de Procesamiento de Lenguaje Natural para la Clasificación de Texto de Documentos Biomédicos: Una Revisión Sistemática
Autores: Kesiku, Cyrille YetuYetu; Chaves-Villota, Andrea; Garcia-Zapirain, Begonya
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Técnicas de Procesamiento de Lenguaje Natural para la Clasificación de Texto de Documentos Biomédicos: Una Revisión Sistemática
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clasificación
Literatura biomédica
Textos médicos
Aprendizaje automático
Conjuntos de datos
Desafíos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La clasificación de la literatura biomédica está involucrada en una serie de cuestiones críticas que se espera que los médicos respondan. En muchos casos, estas cuestiones son extremadamente difíciles. Esto se puede llevar a cabo para trabajos como diagnóstico y tratamiento, así como representaciones eficientes de ideas como medicamentos, códigos de procedimientos y visitas de pacientes, así como en la búsqueda rápida de un documento o clasificación de enfermedades. Se están buscando patologías a partir de notas clínicas, entre otras fuentes. El objetivo de esta revisión sistemática es analizar la literatura sobre varios problemas de clasificación de textos médicos de pacientes basados en criterios como: la calidad de las métricas de evaluación utilizadas, los diferentes métodos de aprendizaje automático aplicados, los diferentes conjuntos de datos, para resaltar los mejores métodos en este tipo de problema e identificar los diferentes desafíos asociados. El estudio abarca el período del 1 de enero de 2016 al 10 de julio de 2022. Utilizamos múltiples bases de datos y archivos de artículos de investigación, incluyendo Web Of Science, Scopus, MDPI, arXiv, IEEE y ACM, para encontrar 894 artículos que tratan sobre el tema de la clasificación de textos, que pudimos filtrar utilizando criterios de inclusión y exclusión. Tras una revisión exhaustiva, seleccionamos 33 artículos que abordan problemas de categorización de textos biológicos. Tras nuestra investigación, descubrimos dos problemas principales vinculados a la metodología y los datos utilizados para la clasificación de textos biomédicos. Primero, está el desafío centrado en los datos, seguido del desafío de calidad de los datos.
Descripción
La clasificación de la literatura biomédica está involucrada en una serie de cuestiones críticas que se espera que los médicos respondan. En muchos casos, estas cuestiones son extremadamente difíciles. Esto se puede llevar a cabo para trabajos como diagnóstico y tratamiento, así como representaciones eficientes de ideas como medicamentos, códigos de procedimientos y visitas de pacientes, así como en la búsqueda rápida de un documento o clasificación de enfermedades. Se están buscando patologías a partir de notas clínicas, entre otras fuentes. El objetivo de esta revisión sistemática es analizar la literatura sobre varios problemas de clasificación de textos médicos de pacientes basados en criterios como: la calidad de las métricas de evaluación utilizadas, los diferentes métodos de aprendizaje automático aplicados, los diferentes conjuntos de datos, para resaltar los mejores métodos en este tipo de problema e identificar los diferentes desafíos asociados. El estudio abarca el período del 1 de enero de 2016 al 10 de julio de 2022. Utilizamos múltiples bases de datos y archivos de artículos de investigación, incluyendo Web Of Science, Scopus, MDPI, arXiv, IEEE y ACM, para encontrar 894 artículos que tratan sobre el tema de la clasificación de textos, que pudimos filtrar utilizando criterios de inclusión y exclusión. Tras una revisión exhaustiva, seleccionamos 33 artículos que abordan problemas de categorización de textos biológicos. Tras nuestra investigación, descubrimos dos problemas principales vinculados a la metodología y los datos utilizados para la clasificación de textos biomédicos. Primero, está el desafío centrado en los datos, seguido del desafío de calidad de los datos.