Técnicas efectivas de aprendizaje automático para la clasificación de informes de radiología en idiomas no ingleses: un estudio de caso danés
Autores: Schiavone, Alice; Pehrson, Lea Marie; Ingala, Silvia; Bonnevie, Rasmus; Fraccaro, Marco; Li, Dana; Nielsen, Michael Bachmann; Elliott, Desmond
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Técnicas efectivas de aprendizaje automático para la clasificación de informes de radiología en idiomas no ingleses: un estudio de caso danés
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Métodos de aprendizaje automático
Asistencia clínica
Anotaciones
Procesamiento de lenguaje natural
Informes de radiografías de tórax
Modelos de lenguaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Antecedentes: Los métodos de aprendizaje automático para asistencia clínica requieren un gran número de anotaciones de expertos capacitados para lograr un rendimiento óptimo. Trabajos anteriores en procesamiento de lenguaje natural han demostrado que es posible extraer automáticamente anotaciones de los informes de texto libre asociados con radiografías de tórax. Métodos: Este estudio investigó técnicas para extraer 49 etiquetas en una estructura jerárquica de árbol a partir de informes de radiografías de tórax escritos en danés. Las etiquetas se extrajeron de aproximadamente 550,000 informes realizando una clasificación multi-clase, multi-etiqueta utilizando un método basado en reglas de coincidencia de patrones, un enfoque clásico en la literatura para resolver esta tarea. El rendimiento de este método se comparó con el de modelos de lenguaje grandes de código abierto que fueron pre-entrenados en datos daneses y ajustados para la clasificación. Resultados: Los métodos desarrollados para inglés también fueron aplicables al danés y lograron un rendimiento similar (una puntuación F1 ponderada de 0.778 en 49 hallazgos). Un pequeño conjunto de anotaciones de expertos fue suficiente para lograr resultados competitivos, incluso con un conjunto de datos desequilibrado. Conclusiones: Las técnicas de procesamiento de lenguaje natural ofrecen una alternativa prometedora a la anotación de expertos humanos cuando se necesitan anotaciones de informes de radiografías de tórax. Los modelos de lenguaje grandes pueden superar a los métodos tradicionales de coincidencia de patrones.
Descripción
Antecedentes: Los métodos de aprendizaje automático para asistencia clínica requieren un gran número de anotaciones de expertos capacitados para lograr un rendimiento óptimo. Trabajos anteriores en procesamiento de lenguaje natural han demostrado que es posible extraer automáticamente anotaciones de los informes de texto libre asociados con radiografías de tórax. Métodos: Este estudio investigó técnicas para extraer 49 etiquetas en una estructura jerárquica de árbol a partir de informes de radiografías de tórax escritos en danés. Las etiquetas se extrajeron de aproximadamente 550,000 informes realizando una clasificación multi-clase, multi-etiqueta utilizando un método basado en reglas de coincidencia de patrones, un enfoque clásico en la literatura para resolver esta tarea. El rendimiento de este método se comparó con el de modelos de lenguaje grandes de código abierto que fueron pre-entrenados en datos daneses y ajustados para la clasificación. Resultados: Los métodos desarrollados para inglés también fueron aplicables al danés y lograron un rendimiento similar (una puntuación F1 ponderada de 0.778 en 49 hallazgos). Un pequeño conjunto de anotaciones de expertos fue suficiente para lograr resultados competitivos, incluso con un conjunto de datos desequilibrado. Conclusiones: Las técnicas de procesamiento de lenguaje natural ofrecen una alternativa prometedora a la anotación de expertos humanos cuando se necesitan anotaciones de informes de radiografías de tórax. Los modelos de lenguaje grandes pueden superar a los métodos tradicionales de coincidencia de patrones.