logo móvil
Contáctanos

Fundamentos de Datos para IA Médica: Procedencia, Fiabilidad y Limitaciones de los Recursos de PLN Clínico Rusos

Autores: Litvinov, Arsenii; Malishevskii, Lev; Karpulevich, Evgeny; Bespalov, Iaroslav; Nedumov, Yaroslav; Zhdanov, Sergey; Oseledets, Ivan; Shlyakhto, Evgeniy; Avetisyan, Arutyun

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Fundamentos de Datos para IA Médica: Procedencia, Fiabilidad y Limitaciones de los Recursos de PLN Clínico Rusos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Procesamiento de lenguaje natural en ruso
Conjuntos de datos médicos
Validación clínica
Sistemas de aprendizaje automático
Guías clínicas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los recursos en ruso para el procesamiento del lenguaje natural (NLP) en medicina están expandiéndose rápidamente; sin embargo, su fragmentación, curaduría desigual y limitada fiabilidad clínica obstaculizan el desarrollo de sistemas de aprendizaje automático seguros para el pronóstico, la prevención y la medicina de precisión. Proporcionamos la primera encuesta sistemática de conjuntos de datos de NLP médico en ruso y analizamos su idoneidad para tareas clínicamente significativas según lo definido por la taxonomía MedHELM. Además, realizamos una validación clínica experta de tres corpora públicos representativos: RuMedPrimeData (notas de pacientes ambulatorios reales), MedSyn (notas clínicas sintéticas) y RuMedNLI (inferencia de lenguaje natural traducida), evaluando la plausibilidad clínica, la precisión del diagnóstico y la consistencia lógica. Los expertos identificaron problemas de fiabilidad sustanciales: en subconjuntos muestreados aleatoriamente de cada corpus, solo aproximadamente el 20% de los registros de RuMedPrimeData, menos del 15% de los registros de MedSyn y aproximadamente el 55% de los pares de RuMedNLI cumplían con criterios de calidad esenciales, lo que puede obstaculizar los sistemas de ML posteriores construidos sobre estos datos. Para apoyar aplicaciones robustas, que van desde chatbots médicos y asistentes de triaje hasta modelos predictivos y preventivos, esbozamos requisitos prácticos para conjuntos de datos de alta calidad: corpora coordinados, validados por expertos, legibles por máquina, alineados con directrices clínicas y lógica de seguros, desidentificación estandarizada y procedencia transparente. Fortalecer estas bases de datos permitirá el desarrollo de sistemas de IA fiables, reproducibles y clínicamente relevantes adecuados para aplicaciones de atención médica en el mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro