logo móvil
Contáctanos

Identificación de enfermedades basada en transformadores para un conjunto de datos de cápsulas endoscópicas pequeño y desequilibrado

Autores: Bai, Long; Wang, Liangyu; Chen, Tong; Zhao, Yuanhao; Ren, Hongliang

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Identificación de enfermedades basada en transformadores para un conjunto de datos de cápsulas endoscópicas pequeño y desequilibrado


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transformador
Visión por computadora
ViT
Preentrenamiento
Red neuronal
Autoatención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
Vision Transformer (ViT) está emergiendo como un nuevo líder en visión por computadora con un rendimiento sobresaliente en muchas tareas (por ejemplo, ImageNet-22k, JFT-300M). Sin embargo, el éxito de ViT depende de la preentrenamiento en conjuntos de datos grandes. Nos resulta difícil utilizar ViT para entrenar desde cero en un pequeño conjunto de datos de imágenes endoscópicas de cápsulas desequilibrado. Este artículo adopta una red neuronal Transformer con una configuración de agrupación espacial. El mecanismo de autoatención de Transfomer le permite capturar información a larga distancia de manera efectiva, y la exploración de la estructura espacial de ViT mediante la agrupación puede mejorar aún más el rendimiento de ViT en nuestro conjunto de datos de endoscopia de cápsulas a pequeña escala. Entrenamos desde cero en dos conjuntos de datos disponibles públicamente para la clasificación de enfermedades de la endoscopia de cápsulas, obtuvimos un 79.15% de precisión en la tarea de clasificación multi-clase del conjunto de datos de cápsulas de Kvasir y un 98.63% de precisión en la tarea de clasificación binaria del conjunto de datos de lesiones rojas de endoscopia.

Otros recursos que podrían interesarte

Temas Virtualpro