logo móvil
Contáctanos

Un enfoque de minería de texto en la clasificación de informes de patología del cáncer en texto libre de los Servicios Nacionales de Salud de Sudáfrica

Autores: Achilonu, Okechinyere J.; Olago, Victor; Singh, Elvira; Eijkemans, René M. J. C.; Nimako, Gideon; Musenge, Eustasius

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un enfoque de minería de texto en la clasificación de informes de patología del cáncer en texto libre de los Servicios Nacionales de Salud de Sudáfrica


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Cáncer
Informe de patología
Clasificación
Texto libre
Selección de características
Minería de texto

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Un informe de patología del cáncer es un documento médico valioso que proporciona información para la gestión clínica del paciente y la evaluación de la atención médica. Sin embargo, existen variaciones en la calidad de los informes en formatos de texto libre, que van desde informes completos hasta incompletos. Además, el aumento de la incidencia del cáncer ha generado un alto volumen de informes de patología. Por lo tanto, la extracción y clasificación manual de información de estos informes puede ser intrínsecamente compleja y consumir muchos recursos. Este estudio tuvo como objetivo (i) evaluar la calidad de más de 80,000 informes de patología de cáncer de mama, colorrectal y de próstata en formato de texto libre y (ii) evaluar la efectividad del bosque aleatorio (RF) y variantes de la máquina de soporte vectorial (SVM) en la clasificación de informes en clases benignas y malignas. El enfoque del estudio comprende el preprocesamiento de datos, visualización, selección de características, clasificación de texto y evaluación de métricas de rendimiento. El rendimiento de los clasificadores se evaluó en varias dimensiones de características, que fueron seleccionadas conjuntamente por cuatro métodos de selección de características por filtro. Los métodos de selección de características identificaron términos clínicos establecidos, que son sinónimos de cada uno de los tres tipos de cáncer. La tokenización uni-grama utilizando los clasificadores mostró que el poder predictivo del modelo RF fue consistente en varias dimensiones de características, con puntuaciones F generales del 95.2%, 94.0% y 95.3% para la clasificación de cáncer de mama, colorrectal y de próstata, respectivamente. El SVM radial logró un mejor rendimiento de clasificación en comparación con su variante lineal para la mayoría de las dimensiones de características. Los clasificadores también lograron alta precisión, recuperación y exactitud. Este estudio apoya un estándar nacional acordado en la elaboración de informes de patología y el uso de minería de texto para codificar, clasificar y producir abstracciones de información de alta calidad para el pronóstico y la investigación del cáncer.

Otros recursos que podrían interesarte

Temas Virtualpro