Hacia la localización de falsificaciones de imágenes adaptativas, no supervisadas y ciegas con ViT-VAE y un modelo de mezcla gaussiana
Autores: Yin, Haichang; U, KinTak; Wang, Jing; Ma, Wuyue
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Hacia la localización de falsificaciones de imágenes adaptativas, no supervisadas y ciegas con ViT-VAE y un modelo de mezcla gaussiana
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Falsificación de imágenes
Enfoques no supervisados
Autoencoder variacional
Modelo de Mezcla Gaussiana
Inestabilidad del gradiente
Complejidad computacional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La mayoría de los métodos de localización de falsificaciones de imágenes se basan en el aprendizaje supervisado, requiriendo grandes conjuntos de datos etiquetados para el entrenamiento. Recientemente, se han propuesto varios enfoques no supervisados basados en el marco de autoencoders variacionales (VAE) para la detección de píxeles falsificados. En estos enfoques, el espacio latente se construye mediante una distribución gaussiana simple o un Modelo de Mezcla Gaussiana. A pesar de su éxito, todavía existen algunas limitaciones: (1) La suposición de una distribución gaussiana simple en el espacio latente limita el rendimiento debido a la diversa distribución de imágenes falsificadas. (2) Los Modelos de Mezcla Gaussiana (GMM) introducen funciones no convexas de log-sum-exp en el término de divergencia de Kullback-Leibler (KL), lo que conduce a inestabilidad de gradiente y problemas de convergencia durante el entrenamiento. (3) Estimar los coeficientes de mezcla del GMM generalmente implica el algoritmo de esperanza-maximización (EM) antes del entrenamiento del VAE o un perceptrón multicapa (MLP), ambos aumentan la complejidad computacional. Para abordar estas limitaciones, proponemos el marco Deep ViT-VAE-GMM (DVVG). En primer lugar, empleamos la desigualdad de Jensen para simplificar el cálculo de la divergencia de KL, reduciendo la inestabilidad del gradiente y mejorando la estabilidad del entrenamiento. En segundo lugar, introducimos redes neuronales convolucionales (CNN) para estimar de manera adaptativa los coeficientes de mezcla, lo que permite una arquitectura de extremo a extremo y reduce significativamente los costos computacionales. Los resultados experimentales en conjuntos de datos de referencia demuestran que DVVG no solo mejora el rendimiento de VAE, sino que también mejora la eficiencia en la modelización de distribuciones latentes complejas. Nuestro método equilibra efectivamente el rendimiento y la viabilidad computacional, convirtiéndolo en una solución práctica para la localización de falsificaciones de imágenes en el mundo real.
Descripción
La mayoría de los métodos de localización de falsificaciones de imágenes se basan en el aprendizaje supervisado, requiriendo grandes conjuntos de datos etiquetados para el entrenamiento. Recientemente, se han propuesto varios enfoques no supervisados basados en el marco de autoencoders variacionales (VAE) para la detección de píxeles falsificados. En estos enfoques, el espacio latente se construye mediante una distribución gaussiana simple o un Modelo de Mezcla Gaussiana. A pesar de su éxito, todavía existen algunas limitaciones: (1) La suposición de una distribución gaussiana simple en el espacio latente limita el rendimiento debido a la diversa distribución de imágenes falsificadas. (2) Los Modelos de Mezcla Gaussiana (GMM) introducen funciones no convexas de log-sum-exp en el término de divergencia de Kullback-Leibler (KL), lo que conduce a inestabilidad de gradiente y problemas de convergencia durante el entrenamiento. (3) Estimar los coeficientes de mezcla del GMM generalmente implica el algoritmo de esperanza-maximización (EM) antes del entrenamiento del VAE o un perceptrón multicapa (MLP), ambos aumentan la complejidad computacional. Para abordar estas limitaciones, proponemos el marco Deep ViT-VAE-GMM (DVVG). En primer lugar, empleamos la desigualdad de Jensen para simplificar el cálculo de la divergencia de KL, reduciendo la inestabilidad del gradiente y mejorando la estabilidad del entrenamiento. En segundo lugar, introducimos redes neuronales convolucionales (CNN) para estimar de manera adaptativa los coeficientes de mezcla, lo que permite una arquitectura de extremo a extremo y reduce significativamente los costos computacionales. Los resultados experimentales en conjuntos de datos de referencia demuestran que DVVG no solo mejora el rendimiento de VAE, sino que también mejora la eficiencia en la modelización de distribuciones latentes complejas. Nuestro método equilibra efectivamente el rendimiento y la viabilidad computacional, convirtiéndolo en una solución práctica para la localización de falsificaciones de imágenes en el mundo real.