Hacia la localización de falsificaciones de imágenes adaptativas, no supervisadas y ciegas con ViT-VAE y un modelo de mezcla gaussiana

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Hacia la localización de falsificaciones de imágenes adaptativas, no supervisadas y ciegas con ViT-VAE y un modelo de mezcla gaussiana

Autores: Yin, Haichang; U, KinTak; Wang, Jing; Ma, Wuyue

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Hacia la localización de falsificaciones de imágenes adaptativas, no supervisadas y ciegas con ViT-VAE y un modelo de mezcla gaussiana

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Falsificación de imágenes

Enfoques no supervisados

Autoencoder variacional

Modelo de Mezcla Gaussiana

Inestabilidad del gradiente

Complejidad computacional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

La mayoría de los métodos de localización de falsificaciones de imágenes se basan en el aprendizaje supervisado, requiriendo grandes conjuntos de datos etiquetados para el entrenamiento. Recientemente, se han propuesto varios enfoques no supervisados basados en el marco de autoencoders variacionales (VAE) para la detección de píxeles falsificados. En estos enfoques, el espacio latente se construye mediante una distribución gaussiana simple o un Modelo de Mezcla Gaussiana. A pesar de su éxito, todavía existen algunas limitaciones: (1) La suposición de una distribución gaussiana simple en el espacio latente limita el rendimiento debido a la diversa distribución de imágenes falsificadas. (2) Los Modelos de Mezcla Gaussiana (GMM) introducen funciones no convexas de log-sum-exp en el término de divergencia de Kullback-Leibler (KL), lo que conduce a inestabilidad de gradiente y problemas de convergencia durante el entrenamiento. (3) Estimar los coeficientes de mezcla del GMM generalmente implica el algoritmo de esperanza-maximización (EM) antes del entrenamiento del VAE o un perceptrón multicapa (MLP), ambos aumentan la complejidad computacional. Para abordar estas limitaciones, proponemos el marco Deep ViT-VAE-GMM (DVVG). En primer lugar, empleamos la desigualdad de Jensen para simplificar el cálculo de la divergencia de KL, reduciendo la inestabilidad del gradiente y mejorando la estabilidad del entrenamiento. En segundo lugar, introducimos redes neuronales convolucionales (CNN) para estimar de manera adaptativa los coeficientes de mezcla, lo que permite una arquitectura de extremo a extremo y reduce significativamente los costos computacionales. Los resultados experimentales en conjuntos de datos de referencia demuestran que DVVG no solo mejora el rendimiento de VAE, sino que también mejora la eficiencia en la modelización de distribuciones latentes complejas. Nuestro método equilibra efectivamente el rendimiento y la viabilidad computacional, convirtiéndolo en una solución práctica para la localización de falsificaciones de imágenes en el mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro