Identificación de enfermedades basada en transformadores para un conjunto de datos de cápsulas endoscópicas pequeño y desequilibrado
Autores: Bai, Long; Wang, Liangyu; Chen, Tong; Zhao, Yuanhao; Ren, Hongliang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Identificación de enfermedades basada en transformadores para un conjunto de datos de cápsulas endoscópicas pequeño y desequilibrado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformador
Visión por computadora
ViT
Preentrenamiento
Red neuronal
Autoatención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Vision Transformer (ViT) está emergiendo como un nuevo líder en visión por computadora con un rendimiento sobresaliente en muchas tareas (por ejemplo, ImageNet-22k, JFT-300M). Sin embargo, el éxito de ViT depende de la preentrenamiento en conjuntos de datos grandes. Nos resulta difícil utilizar ViT para entrenar desde cero en un pequeño conjunto de datos de imágenes endoscópicas de cápsulas desequilibrado. Este artículo adopta una red neuronal Transformer con una configuración de agrupación espacial. El mecanismo de autoatención de Transfomer le permite capturar información a larga distancia de manera efectiva, y la exploración de la estructura espacial de ViT mediante la agrupación puede mejorar aún más el rendimiento de ViT en nuestro conjunto de datos de endoscopia de cápsulas a pequeña escala. Entrenamos desde cero en dos conjuntos de datos disponibles públicamente para la clasificación de enfermedades de la endoscopia de cápsulas, obtuvimos un 79.15% de precisión en la tarea de clasificación multi-clase del conjunto de datos de cápsulas de Kvasir y un 98.63% de precisión en la tarea de clasificación binaria del conjunto de datos de lesiones rojas de endoscopia.
Descripción
Vision Transformer (ViT) está emergiendo como un nuevo líder en visión por computadora con un rendimiento sobresaliente en muchas tareas (por ejemplo, ImageNet-22k, JFT-300M). Sin embargo, el éxito de ViT depende de la preentrenamiento en conjuntos de datos grandes. Nos resulta difícil utilizar ViT para entrenar desde cero en un pequeño conjunto de datos de imágenes endoscópicas de cápsulas desequilibrado. Este artículo adopta una red neuronal Transformer con una configuración de agrupación espacial. El mecanismo de autoatención de Transfomer le permite capturar información a larga distancia de manera efectiva, y la exploración de la estructura espacial de ViT mediante la agrupación puede mejorar aún más el rendimiento de ViT en nuestro conjunto de datos de endoscopia de cápsulas a pequeña escala. Entrenamos desde cero en dos conjuntos de datos disponibles públicamente para la clasificación de enfermedades de la endoscopia de cápsulas, obtuvimos un 79.15% de precisión en la tarea de clasificación multi-clase del conjunto de datos de cápsulas de Kvasir y un 98.63% de precisión en la tarea de clasificación binaria del conjunto de datos de lesiones rojas de endoscopia.