Un modelo de detección de objetos de imagen basado en un mecanismo de atención mixto optimizado YOLOv5
Autores: Sun, Guangming; Wang, Shuo; Xie, Jiangjian
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un modelo de detección de objetos de imagen basado en un mecanismo de atención mixto optimizado YOLOv5
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Problemas difíciles
Visión por computadora
Tecnología de detección de objetos en imágenes
Entorno complejo
Redes neuronales profundas
Mecanismo de atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Como uno de los problemas más difíciles en el campo de la visión por computadora, la utilización de la tecnología de detección de imágenes de objetos en un entorno complejo incluye otras tecnologías clave, como el reconocimiento de patrones, la inteligencia artificial y el procesamiento digital de imágenes. Sin embargo, debido a que un entorno puede ser complejo, cambiante, altamente diferente y fácilmente confundible con el objetivo, el objetivo se ve fácilmente afectado por otros factores, como la luz insuficiente, la oclusión parcial, la interferencia de fondo, etc., lo que hace que la detección de múltiples objetivos sea extremadamente difícil y la robustez del algoritmo baja. Cómo utilizar plenamente la rica información espacial y la profunda información de textura en una imagen para identificar con precisión el tipo y la ubicación del objetivo es un problema urgente que debe resolverse. La aparición de redes neuronales profundas proporciona una forma efectiva de extracción de características de imagen y de utilización completa. Al apuntar a los problemas mencionados anteriormente, este documento propone un modelo de detección de objetos basado en la optimización del mecanismo de atención mixta de YOLOv5 (MAO-YOLOv5). El método propuesto fusiona las características locales y globales en una imagen para enriquecer mejor la capacidad de expresión del mapa de características y detectar de manera más efectiva objetos con grandes diferencias de tamaño dentro de la imagen. Luego, se agrega un mecanismo de atención al mapa de características para ponderar cada canal, mejorar las características clave, eliminar las características redundantes y mejorar la capacidad de reconocimiento de la red de características hacia el objeto y el fondo objetivo. Los resultados muestran que el modelo de red propuesto tiene una precisión más alta y una velocidad de ejecución más rápida, y puede desempeñarse mejor en tareas de detección de objetos.
Descripción
Como uno de los problemas más difíciles en el campo de la visión por computadora, la utilización de la tecnología de detección de imágenes de objetos en un entorno complejo incluye otras tecnologías clave, como el reconocimiento de patrones, la inteligencia artificial y el procesamiento digital de imágenes. Sin embargo, debido a que un entorno puede ser complejo, cambiante, altamente diferente y fácilmente confundible con el objetivo, el objetivo se ve fácilmente afectado por otros factores, como la luz insuficiente, la oclusión parcial, la interferencia de fondo, etc., lo que hace que la detección de múltiples objetivos sea extremadamente difícil y la robustez del algoritmo baja. Cómo utilizar plenamente la rica información espacial y la profunda información de textura en una imagen para identificar con precisión el tipo y la ubicación del objetivo es un problema urgente que debe resolverse. La aparición de redes neuronales profundas proporciona una forma efectiva de extracción de características de imagen y de utilización completa. Al apuntar a los problemas mencionados anteriormente, este documento propone un modelo de detección de objetos basado en la optimización del mecanismo de atención mixta de YOLOv5 (MAO-YOLOv5). El método propuesto fusiona las características locales y globales en una imagen para enriquecer mejor la capacidad de expresión del mapa de características y detectar de manera más efectiva objetos con grandes diferencias de tamaño dentro de la imagen. Luego, se agrega un mecanismo de atención al mapa de características para ponderar cada canal, mejorar las características clave, eliminar las características redundantes y mejorar la capacidad de reconocimiento de la red de características hacia el objeto y el fondo objetivo. Los resultados muestran que el modelo de red propuesto tiene una precisión más alta y una velocidad de ejecución más rápida, y puede desempeñarse mejor en tareas de detección de objetos.