Sistema de detección de imágenes casi duplicadas utilizando un esquema de coincidencia de grueso a fino basado en características CNN globales y locales
Autores: Zhou, Zhili; Lin, Kunde; Cao, Yi; Yang, Ching-Nung; Liu, Yuling
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Sistema de detección de imágenes casi duplicadas utilizando un esquema de coincidencia de grueso a fino basado en características CNN globales y locales
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
éxito
Redes neuronales convolucionales
Detección de imágenes
Características globales
Características locales
Detección en tiempo real
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Debido al gran éxito de las redes neuronales convolucionales (CNN) en el área de visión por computadora, los métodos existentes tienden a comparar las características globales o locales de las CNN entre imágenes para la detección de imágenes casi duplicadas. Sin embargo, las características globales de las CNN no son lo suficientemente robustas para combatir el desorden de fondo y la oclusión parcial, mientras que las características locales de las CNN conllevan una alta complejidad computacional en el paso de emparejamiento de características. Para lograr una alta eficiencia manteniendo una buena precisión, proponemos un esquema de emparejamiento de características de grueso a fino utilizando tanto características globales como locales de las CNN para la detección de imágenes casi duplicadas en tiempo real. En la etapa de emparejamiento grueso, implementamos la operación de sum-pooling en mapas de características convolucionales (CFMs) para generar las características globales de las CNN, y emparejamos estas características globales de las CNN entre una imagen de consulta dada e imágenes de la base de datos para filtrar eficientemente la mayoría de las imágenes irrelevantes de la consulta. En la etapa de emparejamiento fino, las características locales de las CNN se extraen utilizando los valores máximos de los CFMs y el mapa de saliencia generado por el algoritmo de detección de saliencia visual basado en gráficos (GBVS). Estas características locales de las CNN luego se emparejan entre imágenes para detectar las versiones casi duplicadas de la consulta. Los resultados experimentales demuestran que nuestro método propuesto no solo logra una detección en tiempo real, sino que también proporciona una mayor precisión que los métodos de vanguardia.
Descripción
Debido al gran éxito de las redes neuronales convolucionales (CNN) en el área de visión por computadora, los métodos existentes tienden a comparar las características globales o locales de las CNN entre imágenes para la detección de imágenes casi duplicadas. Sin embargo, las características globales de las CNN no son lo suficientemente robustas para combatir el desorden de fondo y la oclusión parcial, mientras que las características locales de las CNN conllevan una alta complejidad computacional en el paso de emparejamiento de características. Para lograr una alta eficiencia manteniendo una buena precisión, proponemos un esquema de emparejamiento de características de grueso a fino utilizando tanto características globales como locales de las CNN para la detección de imágenes casi duplicadas en tiempo real. En la etapa de emparejamiento grueso, implementamos la operación de sum-pooling en mapas de características convolucionales (CFMs) para generar las características globales de las CNN, y emparejamos estas características globales de las CNN entre una imagen de consulta dada e imágenes de la base de datos para filtrar eficientemente la mayoría de las imágenes irrelevantes de la consulta. En la etapa de emparejamiento fino, las características locales de las CNN se extraen utilizando los valores máximos de los CFMs y el mapa de saliencia generado por el algoritmo de detección de saliencia visual basado en gráficos (GBVS). Estas características locales de las CNN luego se emparejan entre imágenes para detectar las versiones casi duplicadas de la consulta. Los resultados experimentales demuestran que nuestro método propuesto no solo logra una detección en tiempo real, sino que también proporciona una mayor precisión que los métodos de vanguardia.