Un enfoque de minería de texto en la clasificación de informes de patología del cáncer en texto libre de los Servicios Nacionales de Salud de Sudáfrica
Autores: Achilonu, Okechinyere J.; Olago, Victor; Singh, Elvira; Eijkemans, René M. J. C.; Nimako, Gideon; Musenge, Eustasius
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un enfoque de minería de texto en la clasificación de informes de patología del cáncer en texto libre de los Servicios Nacionales de Salud de Sudáfrica
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Cáncer
Informe de patología
Clasificación
Texto libre
Selección de características
Minería de texto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Un informe de patología del cáncer es un documento médico valioso que proporciona información para la gestión clínica del paciente y la evaluación de la atención médica. Sin embargo, existen variaciones en la calidad de los informes en formatos de texto libre, que van desde informes completos hasta incompletos. Además, el aumento de la incidencia del cáncer ha generado un alto volumen de informes de patología. Por lo tanto, la extracción y clasificación manual de información de estos informes puede ser intrínsecamente compleja y consumir muchos recursos. Este estudio tuvo como objetivo (i) evaluar la calidad de más de 80,000 informes de patología de cáncer de mama, colorrectal y de próstata en formato de texto libre y (ii) evaluar la efectividad del bosque aleatorio (RF) y variantes de la máquina de soporte vectorial (SVM) en la clasificación de informes en clases benignas y malignas. El enfoque del estudio comprende el preprocesamiento de datos, visualización, selección de características, clasificación de texto y evaluación de métricas de rendimiento. El rendimiento de los clasificadores se evaluó en varias dimensiones de características, que fueron seleccionadas conjuntamente por cuatro métodos de selección de características por filtro. Los métodos de selección de características identificaron términos clínicos establecidos, que son sinónimos de cada uno de los tres tipos de cáncer. La tokenización uni-grama utilizando los clasificadores mostró que el poder predictivo del modelo RF fue consistente en varias dimensiones de características, con puntuaciones F generales del 95.2%, 94.0% y 95.3% para la clasificación de cáncer de mama, colorrectal y de próstata, respectivamente. El SVM radial logró un mejor rendimiento de clasificación en comparación con su variante lineal para la mayoría de las dimensiones de características. Los clasificadores también lograron alta precisión, recuperación y exactitud. Este estudio apoya un estándar nacional acordado en la elaboración de informes de patología y el uso de minería de texto para codificar, clasificar y producir abstracciones de información de alta calidad para el pronóstico y la investigación del cáncer.
Descripción
Un informe de patología del cáncer es un documento médico valioso que proporciona información para la gestión clínica del paciente y la evaluación de la atención médica. Sin embargo, existen variaciones en la calidad de los informes en formatos de texto libre, que van desde informes completos hasta incompletos. Además, el aumento de la incidencia del cáncer ha generado un alto volumen de informes de patología. Por lo tanto, la extracción y clasificación manual de información de estos informes puede ser intrínsecamente compleja y consumir muchos recursos. Este estudio tuvo como objetivo (i) evaluar la calidad de más de 80,000 informes de patología de cáncer de mama, colorrectal y de próstata en formato de texto libre y (ii) evaluar la efectividad del bosque aleatorio (RF) y variantes de la máquina de soporte vectorial (SVM) en la clasificación de informes en clases benignas y malignas. El enfoque del estudio comprende el preprocesamiento de datos, visualización, selección de características, clasificación de texto y evaluación de métricas de rendimiento. El rendimiento de los clasificadores se evaluó en varias dimensiones de características, que fueron seleccionadas conjuntamente por cuatro métodos de selección de características por filtro. Los métodos de selección de características identificaron términos clínicos establecidos, que son sinónimos de cada uno de los tres tipos de cáncer. La tokenización uni-grama utilizando los clasificadores mostró que el poder predictivo del modelo RF fue consistente en varias dimensiones de características, con puntuaciones F generales del 95.2%, 94.0% y 95.3% para la clasificación de cáncer de mama, colorrectal y de próstata, respectivamente. El SVM radial logró un mejor rendimiento de clasificación en comparación con su variante lineal para la mayoría de las dimensiones de características. Los clasificadores también lograron alta precisión, recuperación y exactitud. Este estudio apoya un estándar nacional acordado en la elaboración de informes de patología y el uso de minería de texto para codificar, clasificar y producir abstracciones de información de alta calidad para el pronóstico y la investigación del cáncer.