Doble Atención YOLO: Modelo de Transformador de Visión Basado en Tecnología de Procesamiento de Imágenes en Entornos Complejos de Conexiones de Líneas de Transmisión y Detección de Óxido
Autores: Song, Zhiwei; Huang, Xinbo; Ji, Chao; Zhang, Ye
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Doble Atención YOLO: Modelo de Transformador de Visión Basado en Tecnología de Procesamiento de Imágenes en Entornos Complejos de Conexiones de Líneas de Transmisión y Detección de Óxido
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Accesorios de línea de transmisión
Método de procesamiento de imágenes
Algoritmo de desneblado de canal oscuro
Red neuronal convolucional
Transformador de Visión
Modelo GhostNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Los accesorios de líneas de transmisión han estado expuestos a entornos complejos durante mucho tiempo. Debido a la interferencia de la neblina y otros factores ambientales, a menudo es difícil para la cámara obtener imágenes de alta calidad en el sitio, y la tecnología de procesamiento de imágenes tradicional y las redes neuronales convolucionales encuentran dificultades para abordar de manera efectiva la tarea de detección densa de pequeños objetivos con interferencia de oclusión. Por lo tanto, en este artículo se propone un método de procesamiento de imágenes basado en un algoritmo de desneblado de canal oscuro mejorado, el mecanismo de atención espacial de fusión de canales, el Vision Transformer y el método de compresión del modelo GhostNet. Basado en el campo receptivo global del modelo de captura y mejora de la región de saliencia, se construye una red de detección de pequeños objetivos llamada Double-attention YOLO para entornos complejos. Los resultados experimentales muestran que la incorporación de un componente de autoatención de múltiples cabezas en una red neuronal convolucional puede ayudar al modelo a interpretar mejor la información semántica global de múltiples escalas de las imágenes. De esta manera, el modelo aprende más fácilmente las características distinguibles en la representación de la imagen. La incorporación de un módulo de mecanismo de atención puede hacer que la red neuronal preste más atención a la región saliente de la imagen. La fusión de atención dual puede equilibrar las características globales y locales del modelo, mejorando así el rendimiento de la detección del modelo.
Descripción
Los accesorios de líneas de transmisión han estado expuestos a entornos complejos durante mucho tiempo. Debido a la interferencia de la neblina y otros factores ambientales, a menudo es difícil para la cámara obtener imágenes de alta calidad en el sitio, y la tecnología de procesamiento de imágenes tradicional y las redes neuronales convolucionales encuentran dificultades para abordar de manera efectiva la tarea de detección densa de pequeños objetivos con interferencia de oclusión. Por lo tanto, en este artículo se propone un método de procesamiento de imágenes basado en un algoritmo de desneblado de canal oscuro mejorado, el mecanismo de atención espacial de fusión de canales, el Vision Transformer y el método de compresión del modelo GhostNet. Basado en el campo receptivo global del modelo de captura y mejora de la región de saliencia, se construye una red de detección de pequeños objetivos llamada Double-attention YOLO para entornos complejos. Los resultados experimentales muestran que la incorporación de un componente de autoatención de múltiples cabezas en una red neuronal convolucional puede ayudar al modelo a interpretar mejor la información semántica global de múltiples escalas de las imágenes. De esta manera, el modelo aprende más fácilmente las características distinguibles en la representación de la imagen. La incorporación de un módulo de mecanismo de atención puede hacer que la red neuronal preste más atención a la región saliente de la imagen. La fusión de atención dual puede equilibrar las características globales y locales del modelo, mejorando así el rendimiento de la detección del modelo.