Mejorando la detección de copias de imágenes a través de la ampliación dinámica y el muestreo eficiente con datos mínimos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la detección de copias de imágenes a través de la ampliación dinámica y el muestreo eficiente con datos mínimos

Autores: Fawzy, Mohamed; Tawfik, Noha S.; Saleh, Sherine Nagy

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mejorando la detección de copias de imágenes a través de la ampliación dinámica y el muestreo eficiente con datos mínimos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes sociales

Compartir imágenes

Editores de medios

Detección de copia de imágenes

Vision Transformer

Conjunto de datos DISC21

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones

Las redes sociales se han integrado profundamente en nuestra vida diaria, lo que ha llevado a un aumento en el intercambio de imágenes en diferentes plataformas. Al mismo tiempo, la existencia de editores de medios robustos y fáciles de usar no solo facilita la innovación artística, sino que también plantea preocupaciones sobre la facilidad de crear medios engañosos. Esto destaca la necesidad de desarrollar nuevas técnicas avanzadas para la tarea de detección de copias de imágenes, que implica evaluar si las fotos o videos provienen de la misma fuente. Esta investigación introduce una nueva aplicación del modelo Vision Transformer (ViT) para la tarea de detección de copias de imágenes en el conjunto de datos DISC21. Nuestro enfoque implica un muestreo estratégico innovador del extenso conjunto de entrenamiento DISC21 utilizando agrupamiento K-means para lograr un subconjunto representativo. Además, empleamos complejas canalizaciones de aumento aplicadas durante el entrenamiento con intensidades variables. Nuestra metodología sigue el concepto de discriminación de instancias, donde el modelo Vision Transformer se utiliza como clasificador para mapear diferentes aumentos de la misma imagen a la misma clase. A continuación, el modelo ViT entrenado extrae descriptores de imágenes originales y manipuladas que posteriormente se sometieron a un postprocesamiento para reducir la dimensionalidad. Nuestro modelo de mejor rendimiento, probado en un conjunto de consultas refinado de 10K imágenes aumentadas del conjunto de datos DISC21, logró una precisión micro promedio de última generación de 0.79, demostrando la efectividad e innovación de nuestro enfoque.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro