logo móvil
Contáctanos

Explorando el potencial de la traducción automática neuronal para la generación de recursos de procesamiento de lenguaje natural clínico (NLP) en diferentes idiomas a través de la proyección de anotaciones

Autores: Rodríguez-Miret, Jan; Farré-Maduell, Eulàlia; Lima-López, Salvador; Vigil, Laura; Briva-Iglesias, Vicent; Krallinger, Martin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Explorando el potencial de la traducción automática neuronal para la generación de recursos de procesamiento de lenguaje natural clínico (NLP) en diferentes idiomas a través de la proyección de anotaciones


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Avances
Traducción automática neuronal
Procesamiento de lenguaje natural clínico
Reconocimiento de entidades nombradas
Técnicas de proyección de anotaciones
PLN clínico multilingüe.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los avances recientes en la traducción automática neuronal (NMT) ofrecen un potencial prometedor para generar recursos de procesamiento de lenguaje natural (NLP) clínico en múltiples idiomas. Existe una necesidad urgente de fomentar el desarrollo de herramientas de NLP clínico que extraigan entidades clínicas clave de manera comparable para una multitud de escenarios de aplicación médica que se ven obstaculizados por la falta de datos anotados multilingües. Este estudio explora la eficacia del uso de NMT y técnicas de proyección de anotaciones con validación de expertos para desarrollar sistemas de reconocimiento de entidades nombradas (NER) para un idioma objetivo con pocos recursos (catalán) aprovechando los corpus clínicos en español anotados por expertos en la materia. Empleamos un sistema NMT de última generación para traducir tres corpus de casos clínicos. Las anotaciones traducidas se proyectaron luego sobre los textos del idioma objetivo y posteriormente fueron validadas y corregidas por expertos del dominio clínico. La eficacia de los sistemas NER resultantes se evaluó en comparación con conjuntos de pruebas anotados manualmente en el idioma objetivo. Nuestros hallazgos indican que este enfoque no solo facilita la generación de datos de entrenamiento de alta calidad para el idioma objetivo (catalán), sino que también demuestra el potencial de extender esta metodología a otros idiomas, mejorando así el desarrollo de recursos de NLP clínico multilingües. Los corpus y componentes generados son accesibles públicamente, proporcionando potencialmente un recurso valioso para futuras investigaciones y aplicaciones en entornos clínicos multilingües.

Otros recursos que podrían interesarte

Temas Virtualpro