Fundamentos de Datos para IA Médica: Procedencia, Fiabilidad y Limitaciones de los Recursos de PLN Clínico Rusos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Fundamentos de Datos para IA Médica: Procedencia, Fiabilidad y Limitaciones de los Recursos de PLN Clínico Rusos

Autores: Litvinov, Arsenii; Malishevskii, Lev; Karpulevich, Evgeny; Bespalov, Iaroslav; Nedumov, Yaroslav; Zhdanov, Sergey; Oseledets, Ivan; Shlyakhto, Evgeniy; Avetisyan, Arutyun

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Fundamentos de Datos para IA Médica: Procedencia, Fiabilidad y Limitaciones de los Recursos de PLN Clínico Rusos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Procesamiento de lenguaje natural en ruso

Conjuntos de datos médicos

Validación clínica

Sistemas de aprendizaje automático

Guías clínicas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los recursos en ruso para el procesamiento del lenguaje natural (NLP) en medicina están expandiéndose rápidamente; sin embargo, su fragmentación, curaduría desigual y limitada fiabilidad clínica obstaculizan el desarrollo de sistemas de aprendizaje automático seguros para el pronóstico, la prevención y la medicina de precisión. Proporcionamos la primera encuesta sistemática de conjuntos de datos de NLP médico en ruso y analizamos su idoneidad para tareas clínicamente significativas según lo definido por la taxonomía MedHELM. Además, realizamos una validación clínica experta de tres corpora públicos representativos: RuMedPrimeData (notas de pacientes ambulatorios reales), MedSyn (notas clínicas sintéticas) y RuMedNLI (inferencia de lenguaje natural traducida), evaluando la plausibilidad clínica, la precisión del diagnóstico y la consistencia lógica. Los expertos identificaron problemas de fiabilidad sustanciales: en subconjuntos muestreados aleatoriamente de cada corpus, solo aproximadamente el 20% de los registros de RuMedPrimeData, menos del 15% de los registros de MedSyn y aproximadamente el 55% de los pares de RuMedNLI cumplían con criterios de calidad esenciales, lo que puede obstaculizar los sistemas de ML posteriores construidos sobre estos datos. Para apoyar aplicaciones robustas, que van desde chatbots médicos y asistentes de triaje hasta modelos predictivos y preventivos, esbozamos requisitos prácticos para conjuntos de datos de alta calidad: corpora coordinados, validados por expertos, legibles por máquina, alineados con directrices clínicas y lógica de seguros, desidentificación estandarizada y procedencia transparente. Fortalecer estas bases de datos permitirá el desarrollo de sistemas de IA fiables, reproducibles y clínicamente relevantes adecuados para aplicaciones de atención médica en el mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro