Un marco de aprendizaje profundo mejorado por atención para la clasificación de hallazgos dentales multi-etiqueta a partir de radiografías panorámicas
Autores: Almutairi, Mona; Dardouri, Samia
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Un marco de aprendizaje profundo mejorado por atención para la clasificación de hallazgos dentales multi-etiqueta a partir de radiografías panorámicas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Radiografías panorámicas
Marco de aprendizaje profundo
Clasificación multi-etiqueta
Modelo EfficientNet-B4-CBAM
Desequilibrio de clases
Hallazgos dentales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las radiografías panorámicas se utilizan ampliamente en la práctica dental debido a su capacidad para proporcionar una vista integral de los dientes, mandíbulas y estructuras anatómicas circundantes en un solo examen. Sin embargo, la interpretación automatizada sigue siendo un desafío porque múltiples condiciones pueden coexistir dentro de una sola imagen, las distribuciones de clases están altamente desbalanceadas y varios hallazgos exhiben características radiográficas sutiles. Este estudio presenta un marco de aprendizaje profundo para la clasificación de hallazgos dentales de múltiples etiquetas utilizando radiografías panorámicas del conjunto de datos VZRAD2, disponible públicamente. Tras un proceso de curación de etiquetas, se retuvieron once clases clínicamente relevantes, incluyendo enfermedades, tratamientos y estructuras anatómicas. El modelo propuesto EfficientNet-B4-CBAM integra una columna vertebral EfficientNet-B4 con un Módulo de Atención de Bloque de Convolución (CBAM) para mejorar la representación de características a través de atención en canal y espacial. EfficientNet-B4 y ResNet50 se utilizaron como modelos base para comparación bajo un protocolo de entrenamiento unificado. El pipeline de entrenamiento incorpora aumento de datos, muestreo ponderado para abordar el desbalance de clases, optimización AdamW y pérdida de Entropía Cruzada Binaria con Logits para el aprendizaje de múltiples etiquetas. En el conjunto de validación, el modelo propuesto logró la puntuación micro-F1 más alta de 0.8567, en comparación con 0.8424 para EfficientNet-B4 y 0.8469 para ResNet50. El análisis ROC mostró separabilidad comparable entre los modelos, con valores micro-AUC de 0.946 (EfficientNet-B4-CBAM), 0.947 (EfficientNet-B4) y 0.960 (ResNet50). La evaluación por clase indicó un rendimiento sólido para hallazgos visualmente distintos como diente impactado, implante, empaste y tratamiento de conducto, mientras que las clases anatómicamente difusas o subrepresentadas siguieron siendo más desafiantes. Las visualizaciones de Grad-CAM sugieren que el modelo se centra en regiones clínicamente relevantes, apoyando la interpretabilidad. En general, los resultados indican que los modelos de convolución mejorados por atención pueden proporcionar un soporte efectivo e interpretable para la clasificación de hallazgos dentales de múltiples etiquetas. Sin embargo, las mejoras de rendimiento observadas son modestas, y se requiere una validación adicional en conjuntos de datos independientes, junto con una evaluación clínica, para confirmar la generalizabilidad y aplicabilidad en el mundo real.
Descripción
Las radiografías panorámicas se utilizan ampliamente en la práctica dental debido a su capacidad para proporcionar una vista integral de los dientes, mandíbulas y estructuras anatómicas circundantes en un solo examen. Sin embargo, la interpretación automatizada sigue siendo un desafío porque múltiples condiciones pueden coexistir dentro de una sola imagen, las distribuciones de clases están altamente desbalanceadas y varios hallazgos exhiben características radiográficas sutiles. Este estudio presenta un marco de aprendizaje profundo para la clasificación de hallazgos dentales de múltiples etiquetas utilizando radiografías panorámicas del conjunto de datos VZRAD2, disponible públicamente. Tras un proceso de curación de etiquetas, se retuvieron once clases clínicamente relevantes, incluyendo enfermedades, tratamientos y estructuras anatómicas. El modelo propuesto EfficientNet-B4-CBAM integra una columna vertebral EfficientNet-B4 con un Módulo de Atención de Bloque de Convolución (CBAM) para mejorar la representación de características a través de atención en canal y espacial. EfficientNet-B4 y ResNet50 se utilizaron como modelos base para comparación bajo un protocolo de entrenamiento unificado. El pipeline de entrenamiento incorpora aumento de datos, muestreo ponderado para abordar el desbalance de clases, optimización AdamW y pérdida de Entropía Cruzada Binaria con Logits para el aprendizaje de múltiples etiquetas. En el conjunto de validación, el modelo propuesto logró la puntuación micro-F1 más alta de 0.8567, en comparación con 0.8424 para EfficientNet-B4 y 0.8469 para ResNet50. El análisis ROC mostró separabilidad comparable entre los modelos, con valores micro-AUC de 0.946 (EfficientNet-B4-CBAM), 0.947 (EfficientNet-B4) y 0.960 (ResNet50). La evaluación por clase indicó un rendimiento sólido para hallazgos visualmente distintos como diente impactado, implante, empaste y tratamiento de conducto, mientras que las clases anatómicamente difusas o subrepresentadas siguieron siendo más desafiantes. Las visualizaciones de Grad-CAM sugieren que el modelo se centra en regiones clínicamente relevantes, apoyando la interpretabilidad. En general, los resultados indican que los modelos de convolución mejorados por atención pueden proporcionar un soporte efectivo e interpretable para la clasificación de hallazgos dentales de múltiples etiquetas. Sin embargo, las mejoras de rendimiento observadas son modestas, y se requiere una validación adicional en conjuntos de datos independientes, junto con una evaluación clínica, para confirmar la generalizabilidad y aplicabilidad en el mundo real.