Bridging the gap between medical tabular data and NLP predictive models: a fuzzy-logic-based textualization approach
Autores: Mugisha, Chérubin; Paik, Incheon
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Bridging the gap between medical tabular data and NLP predictive models: a fuzzy-logic-based textualization approach
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Registros de salud electrónicos
Modelado predictivo
Datos estructurados
Datos no estructurados
Procesamiento de lenguaje natural
Resultados del paciente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
El aumento del uso de registros de salud electrónicos (EHRs) genera una gran cantidad de datos, que se pueden aprovechar para modelado predictivo y mejora de los resultados de los pacientes. Sin embargo, los datos de los EHR son típicamente mezclas de datos estructurados y no estructurados, lo que presenta dos desafíos principales. Mientras que varios estudios se han centrado en el uso de modelos de aprendizaje automático para predecir resultados de pacientes, estos modelos a menudo requieren que los datos estén en un formato estructurado, lo que puede llevar a la pérdida de información importante. Por otro lado, los datos no estructurados, como informes narrativos, pueden ser ruidosos y desafiantes para aplicaciones de procesamiento de lenguaje natural e interoperabilidad. Por lo tanto, hay una necesidad de cerrar la brecha entre los datos estructurados de los EHR y los modelos predictivos basados en NLP. En este artículo, proponemos un pipeline basado en lógica difusa que genera narrativas médicas a partir de datos estructurados de EHR y evalúa su rendimiento en la predicción de resultados de pacientes. El pipeline incluye una operación de selección de características y una función de razonamiento e inferencia que genera narrativas médicas. Luego evaluamos extensamente las narrativas generadas utilizando modelos de NLP basados en transformadores para una tarea de predicción de resultados de pacientes. Además, evaluamos la interpretabilidad del texto generado utilizando valores de Shapley. Nuestro enfoque ha demostrado un rendimiento comparable a los modelos de referencia con una puntuación F1 del 93.7%, mostrando resultados ligeramente mejorados en términos de recall. El modelo demostró competencia en la preservación de información e interpretabilidad heredada de narrativas matizadas y estructuradas. Hasta donde sabemos, este es el primer estudio que demuestra la capacidad de transformar datos tabulares en texto para aplicar NLP a una tarea de predicción.
Descripción
El aumento del uso de registros de salud electrónicos (EHRs) genera una gran cantidad de datos, que se pueden aprovechar para modelado predictivo y mejora de los resultados de los pacientes. Sin embargo, los datos de los EHR son típicamente mezclas de datos estructurados y no estructurados, lo que presenta dos desafíos principales. Mientras que varios estudios se han centrado en el uso de modelos de aprendizaje automático para predecir resultados de pacientes, estos modelos a menudo requieren que los datos estén en un formato estructurado, lo que puede llevar a la pérdida de información importante. Por otro lado, los datos no estructurados, como informes narrativos, pueden ser ruidosos y desafiantes para aplicaciones de procesamiento de lenguaje natural e interoperabilidad. Por lo tanto, hay una necesidad de cerrar la brecha entre los datos estructurados de los EHR y los modelos predictivos basados en NLP. En este artículo, proponemos un pipeline basado en lógica difusa que genera narrativas médicas a partir de datos estructurados de EHR y evalúa su rendimiento en la predicción de resultados de pacientes. El pipeline incluye una operación de selección de características y una función de razonamiento e inferencia que genera narrativas médicas. Luego evaluamos extensamente las narrativas generadas utilizando modelos de NLP basados en transformadores para una tarea de predicción de resultados de pacientes. Además, evaluamos la interpretabilidad del texto generado utilizando valores de Shapley. Nuestro enfoque ha demostrado un rendimiento comparable a los modelos de referencia con una puntuación F1 del 93.7%, mostrando resultados ligeramente mejorados en términos de recall. El modelo demostró competencia en la preservación de información e interpretabilidad heredada de narrativas matizadas y estructuradas. Hasta donde sabemos, este es el primer estudio que demuestra la capacidad de transformar datos tabulares en texto para aplicar NLP a una tarea de predicción.