Explorando el potencial de la traducción automática neuronal para la generación de recursos de procesamiento de lenguaje natural clínico (NLP) en diferentes idiomas a través de la proyección de anotaciones
Autores: Rodríguez-Miret, Jan; Farré-Maduell, Eulàlia; Lima-López, Salvador; Vigil, Laura; Briva-Iglesias, Vicent; Krallinger, Martin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Explorando el potencial de la traducción automática neuronal para la generación de recursos de procesamiento de lenguaje natural clínico (NLP) en diferentes idiomas a través de la proyección de anotaciones
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Avances
Traducción automática neuronal
Procesamiento de lenguaje natural clínico
Reconocimiento de entidades nombradas
Técnicas de proyección de anotaciones
PLN clínico multilingüe.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los avances recientes en la traducción automática neuronal (NMT) ofrecen un potencial prometedor para generar recursos de procesamiento de lenguaje natural (NLP) clínico en múltiples idiomas. Existe una necesidad urgente de fomentar el desarrollo de herramientas de NLP clínico que extraigan entidades clínicas clave de manera comparable para una multitud de escenarios de aplicación médica que se ven obstaculizados por la falta de datos anotados multilingües. Este estudio explora la eficacia del uso de NMT y técnicas de proyección de anotaciones con validación de expertos para desarrollar sistemas de reconocimiento de entidades nombradas (NER) para un idioma objetivo con pocos recursos (catalán) aprovechando los corpus clínicos en español anotados por expertos en la materia. Empleamos un sistema NMT de última generación para traducir tres corpus de casos clínicos. Las anotaciones traducidas se proyectaron luego sobre los textos del idioma objetivo y posteriormente fueron validadas y corregidas por expertos del dominio clínico. La eficacia de los sistemas NER resultantes se evaluó en comparación con conjuntos de pruebas anotados manualmente en el idioma objetivo. Nuestros hallazgos indican que este enfoque no solo facilita la generación de datos de entrenamiento de alta calidad para el idioma objetivo (catalán), sino que también demuestra el potencial de extender esta metodología a otros idiomas, mejorando así el desarrollo de recursos de NLP clínico multilingües. Los corpus y componentes generados son accesibles públicamente, proporcionando potencialmente un recurso valioso para futuras investigaciones y aplicaciones en entornos clínicos multilingües.
Descripción
Los avances recientes en la traducción automática neuronal (NMT) ofrecen un potencial prometedor para generar recursos de procesamiento de lenguaje natural (NLP) clínico en múltiples idiomas. Existe una necesidad urgente de fomentar el desarrollo de herramientas de NLP clínico que extraigan entidades clínicas clave de manera comparable para una multitud de escenarios de aplicación médica que se ven obstaculizados por la falta de datos anotados multilingües. Este estudio explora la eficacia del uso de NMT y técnicas de proyección de anotaciones con validación de expertos para desarrollar sistemas de reconocimiento de entidades nombradas (NER) para un idioma objetivo con pocos recursos (catalán) aprovechando los corpus clínicos en español anotados por expertos en la materia. Empleamos un sistema NMT de última generación para traducir tres corpus de casos clínicos. Las anotaciones traducidas se proyectaron luego sobre los textos del idioma objetivo y posteriormente fueron validadas y corregidas por expertos del dominio clínico. La eficacia de los sistemas NER resultantes se evaluó en comparación con conjuntos de pruebas anotados manualmente en el idioma objetivo. Nuestros hallazgos indican que este enfoque no solo facilita la generación de datos de entrenamiento de alta calidad para el idioma objetivo (catalán), sino que también demuestra el potencial de extender esta metodología a otros idiomas, mejorando así el desarrollo de recursos de NLP clínico multilingües. Los corpus y componentes generados son accesibles públicamente, proporcionando potencialmente un recurso valioso para futuras investigaciones y aplicaciones en entornos clínicos multilingües.