Automatización de la extracción de entidades clave de informes de mamografía en idiomas no ingleses utilizando reconocimiento de entidades con ingeniería de indicaciones
Autores: Akcali, Zafer; Cubuk, Hazal Selvi; Oguz, Arzu; Kocak, Murat; Farzaliyeva, Aydan; Guven, Fatih; Ramazanoglu, Mehmet Nezir; Hasdemir, Efe; Altundag, Ozden; Agildere, Ahmet Muhtesem
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Automatización de la extracción de entidades clave de informes de mamografía en idiomas no ingleses utilizando reconocimiento de entidades con ingeniería de indicaciones
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Reconocimiento de entidades
Información clínica
Modelo de lenguaje
Informes de mamografía
Procesamiento de lenguaje natural
Entidades clínicas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Objetivo: El reconocimiento de entidades nombradas (NER) ofrece un método poderoso para extraer automáticamente información clínica clave de texto, pero los modelos actuales a menudo carecen de suficiente soporte para idiomas no ingleses. Materiales y Métodos: Este estudio investigó un enfoque de NER basado en indicaciones utilizando Gemini 1.5 Pro de Google, un gran modelo de lenguaje (LLM) con una ventana de contexto de 1.5 millones de tokens. Nos enfocamos en extraer entidades clínicas importantes de informes de mamografías en turco, un idioma con herramientas limitadas disponibles de procesamiento de lenguaje natural (NLP). Nuestro método empleó aprendizaje de muchas tomas, incorporando 165 ejemplos dentro de una indicación de 26,000 tokens derivada de 75 informes iniciales. Probamos el modelo en un conjunto separado de 85 informes no anotados, centrándonos en cinco entidades clave: anatomía (ANAT), impresión (IMP), presencia de observación (OBS-P), ausencia (OBS-A) e incertidumbre (OBS-U). Resultados: Nuestro enfoque logró una alta precisión, con un puntaje F1 macro promediado de 0.99 para coincidencia relajada y 0.84 para coincidencia exacta. En la coincidencia relajada, el modelo logró puntajes F1 de 0.99 para ANAT, 0.99 para IMP, 1.00 para OBS-P, 1.00 para OBS-A y 0.99 para OBS-U. Para la coincidencia exacta, los puntajes F1 fueron 0.88 para ANAT, 0.79 para IMP, 0.78 para OBS-P, 0.94 para OBS-A y 0.82 para OBS-U. Discusión: Estos resultados indican que un enfoque de ingeniería de indicaciones de muchas tomas con grandes modelos de lenguaje proporciona una forma efectiva de automatizar la extracción de información clínica para idiomas donde los recursos de NLP están menos desarrollados, y según lo informado en la literatura, generalmente supera a los métodos de cero tomas, cinco tomas y otros pocos tomas. Conclusión: Este enfoque tiene el potencial de mejorar significativamente los flujos de trabajo clínicos y los esfuerzos de investigación en entornos de atención médica multilingües.
Descripción
Objetivo: El reconocimiento de entidades nombradas (NER) ofrece un método poderoso para extraer automáticamente información clínica clave de texto, pero los modelos actuales a menudo carecen de suficiente soporte para idiomas no ingleses. Materiales y Métodos: Este estudio investigó un enfoque de NER basado en indicaciones utilizando Gemini 1.5 Pro de Google, un gran modelo de lenguaje (LLM) con una ventana de contexto de 1.5 millones de tokens. Nos enfocamos en extraer entidades clínicas importantes de informes de mamografías en turco, un idioma con herramientas limitadas disponibles de procesamiento de lenguaje natural (NLP). Nuestro método empleó aprendizaje de muchas tomas, incorporando 165 ejemplos dentro de una indicación de 26,000 tokens derivada de 75 informes iniciales. Probamos el modelo en un conjunto separado de 85 informes no anotados, centrándonos en cinco entidades clave: anatomía (ANAT), impresión (IMP), presencia de observación (OBS-P), ausencia (OBS-A) e incertidumbre (OBS-U). Resultados: Nuestro enfoque logró una alta precisión, con un puntaje F1 macro promediado de 0.99 para coincidencia relajada y 0.84 para coincidencia exacta. En la coincidencia relajada, el modelo logró puntajes F1 de 0.99 para ANAT, 0.99 para IMP, 1.00 para OBS-P, 1.00 para OBS-A y 0.99 para OBS-U. Para la coincidencia exacta, los puntajes F1 fueron 0.88 para ANAT, 0.79 para IMP, 0.78 para OBS-P, 0.94 para OBS-A y 0.82 para OBS-U. Discusión: Estos resultados indican que un enfoque de ingeniería de indicaciones de muchas tomas con grandes modelos de lenguaje proporciona una forma efectiva de automatizar la extracción de información clínica para idiomas donde los recursos de NLP están menos desarrollados, y según lo informado en la literatura, generalmente supera a los métodos de cero tomas, cinco tomas y otros pocos tomas. Conclusión: Este enfoque tiene el potencial de mejorar significativamente los flujos de trabajo clínicos y los esfuerzos de investigación en entornos de atención médica multilingües.