logo móvil
Contáctanos

Hacia la localización de falsificaciones de imágenes adaptativas, no supervisadas y ciegas con ViT-VAE y un modelo de mezcla gaussiana

Autores: Yin, Haichang; U, KinTak; Wang, Jing; Ma, Wuyue

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Hacia la localización de falsificaciones de imágenes adaptativas, no supervisadas y ciegas con ViT-VAE y un modelo de mezcla gaussiana


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Falsificación de imágenes
Enfoques no supervisados
Autoencoder variacional
Modelo de Mezcla Gaussiana
Inestabilidad del gradiente
Complejidad computacional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
La mayoría de los métodos de localización de falsificaciones de imágenes se basan en el aprendizaje supervisado, requiriendo grandes conjuntos de datos etiquetados para el entrenamiento. Recientemente, se han propuesto varios enfoques no supervisados basados en el marco de autoencoders variacionales (VAE) para la detección de píxeles falsificados. En estos enfoques, el espacio latente se construye mediante una distribución gaussiana simple o un Modelo de Mezcla Gaussiana. A pesar de su éxito, todavía existen algunas limitaciones: (1) La suposición de una distribución gaussiana simple en el espacio latente limita el rendimiento debido a la diversa distribución de imágenes falsificadas. (2) Los Modelos de Mezcla Gaussiana (GMM) introducen funciones no convexas de log-sum-exp en el término de divergencia de Kullback-Leibler (KL), lo que conduce a inestabilidad de gradiente y problemas de convergencia durante el entrenamiento. (3) Estimar los coeficientes de mezcla del GMM generalmente implica el algoritmo de esperanza-maximización (EM) antes del entrenamiento del VAE o un perceptrón multicapa (MLP), ambos aumentan la complejidad computacional. Para abordar estas limitaciones, proponemos el marco Deep ViT-VAE-GMM (DVVG). En primer lugar, empleamos la desigualdad de Jensen para simplificar el cálculo de la divergencia de KL, reduciendo la inestabilidad del gradiente y mejorando la estabilidad del entrenamiento. En segundo lugar, introducimos redes neuronales convolucionales (CNN) para estimar de manera adaptativa los coeficientes de mezcla, lo que permite una arquitectura de extremo a extremo y reduce significativamente los costos computacionales. Los resultados experimentales en conjuntos de datos de referencia demuestran que DVVG no solo mejora el rendimiento de VAE, sino que también mejora la eficiencia en la modelización de distribuciones latentes complejas. Nuestro método equilibra efectivamente el rendimiento y la viabilidad computacional, convirtiéndolo en una solución práctica para la localización de falsificaciones de imágenes en el mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro