Extracción de información de reportes médicos no estructurados escritos en lenguas minoritarias: un estudio de caso del finlandés
Autores: Myllylä, Elisa; Siirtola, Pekka; Isosalo, Antti; Laatikainen, Outi
Idioma: Inglés
Editor: Jamal Jokar Arsanjani
Año: 2025
Acceso abierto
Extracción de información de reportes médicos no estructurados escritos en lenguas minoritarias: un estudio de caso del finlandés
Categoría
Subcategoría
Palabras clave
Licencia
Consultas: 31
Citaciones: Inteligencia Artificial en la ingeniería
En el contexto de la salud digital, este estudio aborda el reto de extraer información útil de reportes radiológicos no estructurados escritos en finlandés, un idioma minoritario. Utilizando técnicas de aprendizaje automático, se logró transformar estos textos en datos estructurados. Los clasificadores tradicionales, como máquinas de soporte vectorial y regresión logística, identificaron menciones de tumores de mama con una precisión cercana al 90% y detectaron metástasis con un F1-score del 81%. Sorprendentemente, superaron al modelo FinBERT, especializado en el idioma. La menor precisión en metástasis se atribuye a la ambigüedad del lenguaje y el tamaño reducido del conjunto de datos. Además, afinar modelos con textos traducidos del inglés no mejoró significativamente el rendimiento, evidenciando la necesidad de conjuntos de datos locales adaptados a lenguas con estructuras gramaticales complejas.
En el contexto de la salud digital, este estudio aborda el reto de extraer información útil de reportes radiológicos no estructurados escritos en finlandés, un idioma minoritario. Utilizando técnicas de aprendizaje automático, se logró transformar estos textos en datos estructurados. Los clasificadores tradicionales, como máquinas de soporte vectorial y regresión logística, identificaron menciones de tumores de mama con una precisión cercana al 90% y detectaron metástasis con un F1-score del 81%. Sorprendentemente, superaron al modelo FinBERT, especializado en el idioma. La menor precisión en metástasis se atribuye a la ambigüedad del lenguaje y el tamaño reducido del conjunto de datos. Además, afinar modelos con textos traducidos del inglés no mejoró significativamente el rendimiento, evidenciando la necesidad de conjuntos de datos locales adaptados a lenguas con estructuras gramaticales complejas.