Un sistema de dos ramas para la localización de objetos con supervisión débil
Autores: Sun, Chang; Ai, Yibo; Wang, Sheng; Zhang, Weidong
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Un sistema de dos ramas para la localización de objetos con supervisión débil
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Localización de objetos
Débilmente supervisado
Red neuronal convolucional
Modelo de dos ramas
Mecanismo de autoatención
Rendimiento de detección
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La localización de objetos supervisada débilmente (WSOL) ha atraído un gran interés en la visión por computadora para anotaciones a nivel de instancia. Como tema de investigación candente, varios trabajos existentes se han centrado en utilizar métodos basados en redes neuronales convolucionales (CNN), que son poderosos para extraer y representar características. El principal desafío en los métodos de WSOL basados en CNN es obtener características que cubran todos los objetos objetivo, no solo las partes de objetos más discriminativas. Para superar este desafío y mejorar el rendimiento de detección de los métodos de WSOL relacionados con la extracción de características, en este artículo se presentó un modelo de dos ramas basado en CNN para localizar objetos utilizando aprendizaje supervisado. Nuestro método contenía dos ramas, incluida una rama de detección y una rama de autoatención. Durante el proceso de entrenamiento, las dos ramas interactuaban entre sí al considerar la máscara de segmentación de la otra rama como las etiquetas de pseudo verdaderas de sí misma. Nuestro modelo podía centrarse en capturar la información de todas las partes del objeto debido al mecanismo de autoatención. Además, incorporamos detección a múltiples escalas en nuestro método de dos ramas para producir características de dos escalas. Evaluamos nuestra red de dos ramas en los conjuntos de datos CUB-200-2011 y VOC2007. Los resultados de localización de señalización, localización de intersección sobre unión (IoU) y precisión de localización correcta (CorLoc) demostraron un rendimiento competitivo con otros métodos de vanguardia en WSOL.
Descripción
La localización de objetos supervisada débilmente (WSOL) ha atraído un gran interés en la visión por computadora para anotaciones a nivel de instancia. Como tema de investigación candente, varios trabajos existentes se han centrado en utilizar métodos basados en redes neuronales convolucionales (CNN), que son poderosos para extraer y representar características. El principal desafío en los métodos de WSOL basados en CNN es obtener características que cubran todos los objetos objetivo, no solo las partes de objetos más discriminativas. Para superar este desafío y mejorar el rendimiento de detección de los métodos de WSOL relacionados con la extracción de características, en este artículo se presentó un modelo de dos ramas basado en CNN para localizar objetos utilizando aprendizaje supervisado. Nuestro método contenía dos ramas, incluida una rama de detección y una rama de autoatención. Durante el proceso de entrenamiento, las dos ramas interactuaban entre sí al considerar la máscara de segmentación de la otra rama como las etiquetas de pseudo verdaderas de sí misma. Nuestro modelo podía centrarse en capturar la información de todas las partes del objeto debido al mecanismo de autoatención. Además, incorporamos detección a múltiples escalas en nuestro método de dos ramas para producir características de dos escalas. Evaluamos nuestra red de dos ramas en los conjuntos de datos CUB-200-2011 y VOC2007. Los resultados de localización de señalización, localización de intersección sobre unión (IoU) y precisión de localización correcta (CorLoc) demostraron un rendimiento competitivo con otros métodos de vanguardia en WSOL.