logo móvil
Contáctanos

Automatización de la extracción de entidades clave de informes de mamografía en idiomas no ingleses utilizando reconocimiento de entidades con ingeniería de indicaciones

Autores: Akcali, Zafer; Cubuk, Hazal Selvi; Oguz, Arzu; Kocak, Murat; Farzaliyeva, Aydan; Guven, Fatih; Ramazanoglu, Mehmet Nezir; Hasdemir, Efe; Altundag, Ozden; Agildere, Ahmet Muhtesem

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Automatización de la extracción de entidades clave de informes de mamografía en idiomas no ingleses utilizando reconocimiento de entidades con ingeniería de indicaciones


Categoría

Ingeniería y Tecnología

Subcategoría

Bioingeniería

Palabras clave

Reconocimiento de entidades
Información clínica
Modelo de lenguaje
Informes de mamografía
Procesamiento de lenguaje natural
Entidades clínicas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Objetivo: El reconocimiento de entidades nombradas (NER) ofrece un método poderoso para extraer automáticamente información clínica clave de texto, pero los modelos actuales a menudo carecen de suficiente soporte para idiomas no ingleses. Materiales y Métodos: Este estudio investigó un enfoque de NER basado en indicaciones utilizando Gemini 1.5 Pro de Google, un gran modelo de lenguaje (LLM) con una ventana de contexto de 1.5 millones de tokens. Nos enfocamos en extraer entidades clínicas importantes de informes de mamografías en turco, un idioma con herramientas limitadas disponibles de procesamiento de lenguaje natural (NLP). Nuestro método empleó aprendizaje de muchas tomas, incorporando 165 ejemplos dentro de una indicación de 26,000 tokens derivada de 75 informes iniciales. Probamos el modelo en un conjunto separado de 85 informes no anotados, centrándonos en cinco entidades clave: anatomía (ANAT), impresión (IMP), presencia de observación (OBS-P), ausencia (OBS-A) e incertidumbre (OBS-U). Resultados: Nuestro enfoque logró una alta precisión, con un puntaje F1 macro promediado de 0.99 para coincidencia relajada y 0.84 para coincidencia exacta. En la coincidencia relajada, el modelo logró puntajes F1 de 0.99 para ANAT, 0.99 para IMP, 1.00 para OBS-P, 1.00 para OBS-A y 0.99 para OBS-U. Para la coincidencia exacta, los puntajes F1 fueron 0.88 para ANAT, 0.79 para IMP, 0.78 para OBS-P, 0.94 para OBS-A y 0.82 para OBS-U. Discusión: Estos resultados indican que un enfoque de ingeniería de indicaciones de muchas tomas con grandes modelos de lenguaje proporciona una forma efectiva de automatizar la extracción de información clínica para idiomas donde los recursos de NLP están menos desarrollados, y según lo informado en la literatura, generalmente supera a los métodos de cero tomas, cinco tomas y otros pocos tomas. Conclusión: Este enfoque tiene el potencial de mejorar significativamente los flujos de trabajo clínicos y los esfuerzos de investigación en entornos de atención médica multilingües.

Otros recursos que podrían interesarte

Temas Virtualpro