logo móvil
Contáctanos

Mejorando la detección de copias de imágenes a través de la ampliación dinámica y el muestreo eficiente con datos mínimos

Autores: Fawzy, Mohamed; Tawfik, Noha S.; Saleh, Sherine Nagy

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Mejorando la detección de copias de imágenes a través de la ampliación dinámica y el muestreo eficiente con datos mínimos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes sociales
Compartir imágenes
Editores de medios
Detección de copia de imágenes
Vision Transformer
Conjunto de datos DISC21

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones


Descripción
Las redes sociales se han integrado profundamente en nuestra vida diaria, lo que ha llevado a un aumento en el intercambio de imágenes en diferentes plataformas. Al mismo tiempo, la existencia de editores de medios robustos y fáciles de usar no solo facilita la innovación artística, sino que también plantea preocupaciones sobre la facilidad de crear medios engañosos. Esto destaca la necesidad de desarrollar nuevas técnicas avanzadas para la tarea de detección de copias de imágenes, que implica evaluar si las fotos o videos provienen de la misma fuente. Esta investigación introduce una nueva aplicación del modelo Vision Transformer (ViT) para la tarea de detección de copias de imágenes en el conjunto de datos DISC21. Nuestro enfoque implica un muestreo estratégico innovador del extenso conjunto de entrenamiento DISC21 utilizando agrupamiento K-means para lograr un subconjunto representativo. Además, empleamos complejas canalizaciones de aumento aplicadas durante el entrenamiento con intensidades variables. Nuestra metodología sigue el concepto de discriminación de instancias, donde el modelo Vision Transformer se utiliza como clasificador para mapear diferentes aumentos de la misma imagen a la misma clase. A continuación, el modelo ViT entrenado extrae descriptores de imágenes originales y manipuladas que posteriormente se sometieron a un postprocesamiento para reducir la dimensionalidad. Nuestro modelo de mejor rendimiento, probado en un conjunto de consultas refinado de 10K imágenes aumentadas del conjunto de datos DISC21, logró una precisión micro promedio de última generación de 0.79, demostrando la efectividad e innovación de nuestro enfoque.

Otros recursos que podrían interesarte

Temas Virtualpro