Explorando el potencial de la traducción automática neuronal para la generación de recursos de procesamiento de lenguaje natural clínico (NLP) en diferentes idiomas a través de la proyección de anotaciones

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Explorando el potencial de la traducción automática neuronal para la generación de recursos de procesamiento de lenguaje natural clínico (NLP) en diferentes idiomas a través de la proyección de anotaciones

Autores: Rodríguez-Miret, Jan; Farré-Maduell, Eulàlia; Lima-López, Salvador; Vigil, Laura; Briva-Iglesias, Vicent; Krallinger, Martin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Avances

Traducción automática neuronal

Procesamiento de lenguaje natural clínico

Reconocimiento de entidades nombradas

Técnicas de proyección de anotaciones

PLN clínico multilingüe.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los avances recientes en la traducción automática neuronal (NMT) ofrecen un potencial prometedor para generar recursos de procesamiento de lenguaje natural (NLP) clínico en múltiples idiomas. Existe una necesidad urgente de fomentar el desarrollo de herramientas de NLP clínico que extraigan entidades clínicas clave de manera comparable para una multitud de escenarios de aplicación médica que se ven obstaculizados por la falta de datos anotados multilingües. Este estudio explora la eficacia del uso de NMT y técnicas de proyección de anotaciones con validación de expertos para desarrollar sistemas de reconocimiento de entidades nombradas (NER) para un idioma objetivo con pocos recursos (catalán) aprovechando los corpus clínicos en español anotados por expertos en la materia. Empleamos un sistema NMT de última generación para traducir tres corpus de casos clínicos. Las anotaciones traducidas se proyectaron luego sobre los textos del idioma objetivo y posteriormente fueron validadas y corregidas por expertos del dominio clínico. La eficacia de los sistemas NER resultantes se evaluó en comparación con conjuntos de pruebas anotados manualmente en el idioma objetivo. Nuestros hallazgos indican que este enfoque no solo facilita la generación de datos de entrenamiento de alta calidad para el idioma objetivo (catalán), sino que también demuestra el potencial de extender esta metodología a otros idiomas, mejorando así el desarrollo de recursos de NLP clínico multilingües. Los corpus y componentes generados son accesibles públicamente, proporcionando potencialmente un recurso valioso para futuras investigaciones y aplicaciones en entornos clínicos multilingües.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro