logo móvil
Contáctanos

Clasificación de Texto Clínico para el Diagnóstico de Tuberculosis Usando Procesamiento de Lenguaje Natural y Modelo de Aprendizaje Profundo con Técnica de Selección de Características Estadísticas

Autores: Ahamed, Shaik Fayaz; Karuppasamy, Sundarakumar; Chinnaiyan, Ponnuraja

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Clasificación de Texto Clínico para el Diagnóstico de Tuberculosis Usando Procesamiento de Lenguaje Natural y Modelo de Aprendizaje Profundo con Técnica de Selección de Características Estadísticas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Campo médico
Aprendizaje profundo
Datos de texto clínico
Tuberculosis
Procesamiento de lenguaje natural
Modelos de aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Antecedentes: En el campo médico, varios algoritmos de aprendizaje profundo (DL) se han utilizado de manera efectiva para extraer información valiosa de datos textuales clínicos no estructurados, lo que podría llevar a resultados más efectivos. Este estudio utilizó datos textuales clínicos para clasificar informes de casos clínicos en grupos de tuberculosis (TB) y no tuberculosis (no-TB) utilizando procesamiento de lenguaje natural (NLP), una técnica de preprocesamiento y modelos de DL. Métodos: Este estudio utilizó 1743 datos textuales clínicos de enfermedades respiratorias de código abierto, etiquetados mediante coincidencia difusa con códigos ICD-10 para crear un conjunto de datos etiquetado. Se utilizaron dos métodos de tokenización para preprocesar los datos textuales clínicos, y se evaluaron tres modelos: el Text-CNN existente, el Text-CNN propuesto con t-test y Bio_ClinicalBERT. El rendimiento se evaluó utilizando múltiples métricas y se validó en 228 datos textuales clínicos de cribado base recopilados de ICMR-NIRT para demostrar una clasificación efectiva de TB. Resultados: El modelo propuesto logró los mejores resultados tanto en el conjunto de datos de prueba como en el de validación. En el conjunto de datos de prueba, alcanzó una precisión del 88.19%, un recall del 90.71%, un F1-score del 89.44% y un AUC de 0.91. De manera similar, en el conjunto de datos de validación, logró una precisión del 100%, un recall del 98.85%, un F1-score del 99.42% y un AUC de 0.982, demostrando su efectividad en la clasificación de TB. Conclusiones: Este estudio destaca la efectividad de los modelos de DL en la clasificación de casos de TB a partir de notas clínicas. El modelo propuesto superó a los otros dos modelos. El TF-IDF y el t-test mostraron una selección de características estadísticamente significativa y mejoraron la interpretabilidad y eficiencia del modelo, demostrando el potencial de NLP y DL en la automatización del diagnóstico de TB en entornos de toma de decisiones clínicas.

Otros recursos que podrían interesarte

Temas Virtualpro