Identificación de malignidades a partir de informes de histopatología en texto libre utilizando un enfoque de aprendizaje automático supervisado de múltiples modelos
Autores: Olago, Victor; Muchengeti, Mazvita; Singh, Elvira; Chen, Wenlong C.
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Identificación de malignidades a partir de informes de histopatología en texto libre utilizando un enfoque de aprendizaje automático supervisado de múltiples modelos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje automático
Informes de histopatología
Clasificación
Descenso de gradiente estocástico
Máquina de vectores de soporte
Bosque aleatorio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Exploramos varios modelos de Aprendizaje Automático (ML) para evaluar cómo se desempeña cada modelo en la tarea de clasificar informes de histopatología. Entrenamos, optimizamos y realizamos clasificación con Descenso de Gradiente Estocástico (SGD), Máquina de Vectores de Soporte (SVM), Bosque Aleatorio (RF), K-Vecinos Más Cercanos (KNN), Aumento Adaptativo (AB), Árboles de Decisión (DT), Bayes Naïve Gaussiano (GNB), Regresión Logística (LR) y clasificador Dummy. Comenzamos con 60,083 informes de histopatología, que se redujeron a 60,069 después del preprocesamiento. Las puntuaciones F1 para SVM, SGD KNN, RF, DT, LR, AB y GNB fueron 97%, 96%, 96%, 96%, 92%, 96%, 84% y 88%, respectivamente, mientras que las tasas de clasificación errónea fueron 3.31%, 5.25%, 4.39%, 1.75%, 3.5%, 4.26%, 23.9% y 19.94%, respectivamente. Los tiempos de ejecución aproximados fueron 2 h, 20 min, 40 min, 8 h, 40 min, 10 min, 50 min y 4 min, respectivamente. RF tuvo el tiempo de ejecución más largo pero la tasa de clasificación errónea más baja en los datos etiquetados. Nuestro estudio demostró la posibilidad de aplicar técnicas de ML en el procesamiento de informes de patología en texto libre para registros de cáncer para la notificación de incidencia de cáncer en un entorno de África Subsahariana. Esta es una consideración importante para los entornos con recursos limitados para aprovechar las técnicas de ML y reducir las cargas de trabajo y mejorar la puntualidad en la notificación de estadísticas sobre el cáncer.
Descripción
Exploramos varios modelos de Aprendizaje Automático (ML) para evaluar cómo se desempeña cada modelo en la tarea de clasificar informes de histopatología. Entrenamos, optimizamos y realizamos clasificación con Descenso de Gradiente Estocástico (SGD), Máquina de Vectores de Soporte (SVM), Bosque Aleatorio (RF), K-Vecinos Más Cercanos (KNN), Aumento Adaptativo (AB), Árboles de Decisión (DT), Bayes Naïve Gaussiano (GNB), Regresión Logística (LR) y clasificador Dummy. Comenzamos con 60,083 informes de histopatología, que se redujeron a 60,069 después del preprocesamiento. Las puntuaciones F1 para SVM, SGD KNN, RF, DT, LR, AB y GNB fueron 97%, 96%, 96%, 96%, 92%, 96%, 84% y 88%, respectivamente, mientras que las tasas de clasificación errónea fueron 3.31%, 5.25%, 4.39%, 1.75%, 3.5%, 4.26%, 23.9% y 19.94%, respectivamente. Los tiempos de ejecución aproximados fueron 2 h, 20 min, 40 min, 8 h, 40 min, 10 min, 50 min y 4 min, respectivamente. RF tuvo el tiempo de ejecución más largo pero la tasa de clasificación errónea más baja en los datos etiquetados. Nuestro estudio demostró la posibilidad de aplicar técnicas de ML en el procesamiento de informes de patología en texto libre para registros de cáncer para la notificación de incidencia de cáncer en un entorno de África Subsahariana. Esta es una consideración importante para los entornos con recursos limitados para aprovechar las técnicas de ML y reducir las cargas de trabajo y mejorar la puntualidad en la notificación de estadísticas sobre el cáncer.