ViT-PSO-SVM: predicción de cáncer cervical basada en la integración de Vision Transformer con Optimización de Enjambre de Partículas y Máquina de Vectores de Soporte
Autores: AlMohimeed, Abdulaziz; Shehata, Mohamed; El-Rashidy, Nora; Mostafa, Sherif; Samy Talaat, Amira; Saleh, Hager
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
ViT-PSO-SVM: predicción de cáncer cervical basada en la integración de Vision Transformer con Optimización de Enjambre de Partículas y Máquina de Vectores de Soporte
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Cáncer cervical
Detección temprana
Inteligencia artificial
ViT
PSO
SVM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
El cáncer cervical (CCa) es el cuarto cáncer más prevalente y común que afecta a las mujeres en todo el mundo, con tasas crecientes de incidencia y mortalidad. Por lo tanto, la detección temprana del CCa juega un papel crucial en la mejora de los resultados. Los procedimientos de imagen no invasivos con buen rendimiento diagnóstico son deseables y tienen el potencial de disminuir el grado de intervención asociado con el estándar de oro, la biopsia. Recientemente, los modelos diagnósticos basados en inteligencia artificial como los Vision Transformers (ViT) han mostrado un rendimiento prometedor en tareas de clasificación de imágenes, rivalizando o superando a las redes neuronales convolucionales (CNN) tradicionales. Este artículo estudia el efecto de aplicar un ViT para predecir el CCa utilizando diferentes conjuntos de datos de referencia de imágenes. Se presentó un enfoque recientemente desarrollado (ViT-PSO-SVM) para potenciar los resultados del ViT basado en la integración del ViT con la optimización por enjambre de partículas (PSO) y la máquina de vectores de soporte (SVM). Primero, el marco propuesto extrae características del Vision Transformer. Luego, se utiliza PSO para reducir la complejidad de las características extraídas y optimizar la representación de las características. Finalmente, se reemplaza una capa de clasificación softmax con un modelo de clasificación SVM para predecir con precisión el CCa. Los modelos se evalúan utilizando dos conjuntos de datos de imágenes de células cervicales de referencia, a saber, SipakMed y Herlev, con diferentes escenarios de clasificación: dos, tres y cinco clases. El enfoque propuesto logró un 99.112% de precisión y un 99.113% de puntuación F1 para SipakMed con dos clases y alcanzó un 97.778% de precisión y un 97.805% de puntuación F1 para Herlev con dos clases, superando a otros Vision Transformers, modelos CNN y modelos pre-entrenados. Finalmente, GradCAM se utiliza como una herramienta de inteligencia artificial explicativa (XAI) para visualizar y comprender las regiones de una imagen dada que son importantes para la predicción de un modelo. Los resultados experimentales obtenidos demuestran la viabilidad y eficacia del enfoque desarrollado ViT-PSO-SVM y prometen proporcionar una herramienta de diagnóstico robusta, confiable, precisa y no invasiva que conducirá a una mejora en los resultados de la atención médica en todo el mundo.
Descripción
El cáncer cervical (CCa) es el cuarto cáncer más prevalente y común que afecta a las mujeres en todo el mundo, con tasas crecientes de incidencia y mortalidad. Por lo tanto, la detección temprana del CCa juega un papel crucial en la mejora de los resultados. Los procedimientos de imagen no invasivos con buen rendimiento diagnóstico son deseables y tienen el potencial de disminuir el grado de intervención asociado con el estándar de oro, la biopsia. Recientemente, los modelos diagnósticos basados en inteligencia artificial como los Vision Transformers (ViT) han mostrado un rendimiento prometedor en tareas de clasificación de imágenes, rivalizando o superando a las redes neuronales convolucionales (CNN) tradicionales. Este artículo estudia el efecto de aplicar un ViT para predecir el CCa utilizando diferentes conjuntos de datos de referencia de imágenes. Se presentó un enfoque recientemente desarrollado (ViT-PSO-SVM) para potenciar los resultados del ViT basado en la integración del ViT con la optimización por enjambre de partículas (PSO) y la máquina de vectores de soporte (SVM). Primero, el marco propuesto extrae características del Vision Transformer. Luego, se utiliza PSO para reducir la complejidad de las características extraídas y optimizar la representación de las características. Finalmente, se reemplaza una capa de clasificación softmax con un modelo de clasificación SVM para predecir con precisión el CCa. Los modelos se evalúan utilizando dos conjuntos de datos de imágenes de células cervicales de referencia, a saber, SipakMed y Herlev, con diferentes escenarios de clasificación: dos, tres y cinco clases. El enfoque propuesto logró un 99.112% de precisión y un 99.113% de puntuación F1 para SipakMed con dos clases y alcanzó un 97.778% de precisión y un 97.805% de puntuación F1 para Herlev con dos clases, superando a otros Vision Transformers, modelos CNN y modelos pre-entrenados. Finalmente, GradCAM se utiliza como una herramienta de inteligencia artificial explicativa (XAI) para visualizar y comprender las regiones de una imagen dada que son importantes para la predicción de un modelo. Los resultados experimentales obtenidos demuestran la viabilidad y eficacia del enfoque desarrollado ViT-PSO-SVM y prometen proporcionar una herramienta de diagnóstico robusta, confiable, precisa y no invasiva que conducirá a una mejora en los resultados de la atención médica en todo el mundo.