Multi-supervised encoder-decoder para la localización de falsificaciones de imágenes
Autores: Yu, Chunfang; Zhou, Jizhe; Li, Qin
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Multi-supervised encoder-decoder para la localización de falsificaciones de imágenes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Manipulación de imágenes
Localización
Imágenes falsificadas
Red de segmentación semántica
Codificador-Decodificador Multi-Supervisado
Convolución atrous
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
La localización de manipulación de imágenes es una de las tareas más desafiantes porque presta más atención a los artefactos de manipulación que al contenido de la imagen, lo que sugiere que es necesario aprender características más ricas. A diferencia de muchas soluciones existentes, empleamos una red de segmentación semántica, llamada Codificador-Decodificador Multisupervisado (MSED), para la detección y localización de imágenes falsificadas con tamaños arbitrarios y múltiples tipos de manipulaciones sin entrenamiento previo adicional. En el marco básico de codificador-decodificador, el primero codifica información contextual a múltiples escalas mediante convolución atrous a múltiples tasas, mientras que el último captura límites de objetos más nítidos aplicando upsampling para recuperar gradualmente la información espacial. El módulo multisupervisado adicional está diseñado para guiar el proceso de entrenamiento mediante la adopción múltiple de la pérdida de entropía cruzada binaria (BCE) a nivel de píxel después del codificador y de cada upsampling. Los experimentos en cuatro conjuntos de datos estándar de manipulación de imágenes demuestran que nuestra red MSED logra un rendimiento de vanguardia en comparación con otras líneas de base alternativas.
Descripción
La localización de manipulación de imágenes es una de las tareas más desafiantes porque presta más atención a los artefactos de manipulación que al contenido de la imagen, lo que sugiere que es necesario aprender características más ricas. A diferencia de muchas soluciones existentes, empleamos una red de segmentación semántica, llamada Codificador-Decodificador Multisupervisado (MSED), para la detección y localización de imágenes falsificadas con tamaños arbitrarios y múltiples tipos de manipulaciones sin entrenamiento previo adicional. En el marco básico de codificador-decodificador, el primero codifica información contextual a múltiples escalas mediante convolución atrous a múltiples tasas, mientras que el último captura límites de objetos más nítidos aplicando upsampling para recuperar gradualmente la información espacial. El módulo multisupervisado adicional está diseñado para guiar el proceso de entrenamiento mediante la adopción múltiple de la pérdida de entropía cruzada binaria (BCE) a nivel de píxel después del codificador y de cada upsampling. Los experimentos en cuatro conjuntos de datos estándar de manipulación de imágenes demuestran que nuestra red MSED logra un rendimiento de vanguardia en comparación con otras líneas de base alternativas.