Un análisis comparativo del aprendizaje activo para la minería de texto biomédico
Autores: Naseem, Usman; Khushi, Matloob; Khan, Shah Khalid; Shaukat, Kamran; Moni, Mohammad Ali
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un análisis comparativo del aprendizaje activo para la minería de texto biomédico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Información clínica en texto libre
Aplicaciones de aprendizaje automático
Aprendizaje supervisado
Aprendizaje activo
Expertos clínicos
Aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
Una cantidad enorme de información clínica en texto libre, como informes de patología, informes de progreso, notas clínicas y resúmenes de alta, se ha recopilado en hospitales y clínicas de atención médica. Estos datos ofrecen la oportunidad de desarrollar muchas aplicaciones útiles de aprendizaje automático si los datos pudieran transferirse a una estructura aprendible con etiquetas apropiadas para el aprendizaje supervisado. La anotación de estos datos debe ser realizada por expertos clínicos calificados, lo que limita el uso de estos datos debido al alto costo de la anotación. Una técnica subutilizada de aprendizaje automático que puede etiquetar nuevos datos llamada aprendizaje activo (AL) es un candidato prometedor para abordar el alto costo de etiquetar los datos. AL se ha aplicado con éxito a la etiquetación de reconocimiento de voz y clasificación de texto, sin embargo, existe una falta de literatura que investigue su uso con fines clínicos. Realizamos una investigación comparativa de varias técnicas de AL utilizando estrategias basadas en ML y deep learning (DL) en tres conjuntos de datos biomédicos únicos. Investigamos las estrategias de consulta de AL de muestreo aleatorio (RS), menor confianza (LC), diversidad e información informativa (IDD), margen y máxima representatividad-diversidad (MRD). Nuestros experimentos muestran que AL tiene el potencial de reducir significativamente el costo de la etiquetación manual. Además, la preetiquetado realizado utilizando AL acelera el proceso de etiquetado al reducir el tiempo requerido para etiquetar.
Descripción
Una cantidad enorme de información clínica en texto libre, como informes de patología, informes de progreso, notas clínicas y resúmenes de alta, se ha recopilado en hospitales y clínicas de atención médica. Estos datos ofrecen la oportunidad de desarrollar muchas aplicaciones útiles de aprendizaje automático si los datos pudieran transferirse a una estructura aprendible con etiquetas apropiadas para el aprendizaje supervisado. La anotación de estos datos debe ser realizada por expertos clínicos calificados, lo que limita el uso de estos datos debido al alto costo de la anotación. Una técnica subutilizada de aprendizaje automático que puede etiquetar nuevos datos llamada aprendizaje activo (AL) es un candidato prometedor para abordar el alto costo de etiquetar los datos. AL se ha aplicado con éxito a la etiquetación de reconocimiento de voz y clasificación de texto, sin embargo, existe una falta de literatura que investigue su uso con fines clínicos. Realizamos una investigación comparativa de varias técnicas de AL utilizando estrategias basadas en ML y deep learning (DL) en tres conjuntos de datos biomédicos únicos. Investigamos las estrategias de consulta de AL de muestreo aleatorio (RS), menor confianza (LC), diversidad e información informativa (IDD), margen y máxima representatividad-diversidad (MRD). Nuestros experimentos muestran que AL tiene el potencial de reducir significativamente el costo de la etiquetación manual. Además, la preetiquetado realizado utilizando AL acelera el proceso de etiquetado al reducir el tiempo requerido para etiquetar.