Mejorando la clasificación de moda con Vision Transformer (ViT) y desarrollando sistemas de recomendación de moda usando DINOVA2

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la clasificación de moda con Vision Transformer (ViT) y desarrollando sistemas de recomendación de moda usando DINOVA2

Autores: Abd Alaziz, Hadeer M.; Elmannai, Hela; Saleh, Hager; Hadjouni, Myriam; Anter, Ahmed M.; Koura, Abdelrahim; Kayed, Mohammed

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mejorando la clasificación de moda con Vision Transformer (ViT) y desarrollando sistemas de recomendación de moda usando DINOVA2

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Plataformas de comercio electrónico

Sistema de recomendación de ropa

Vision Transformer (ViT)

Modelos CNN

Conjuntos de datos de imágenes de moda

Sistema de recomendación de moda

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones

A medida que las plataformas de comercio electrónico crecen, los consumidores compran cada vez más ropa en línea; sin embargo, a menudo necesitan aclaraciones sobre las opciones de ropa. Los consumidores y las tiendas interactúan a través del sistema de recomendación de ropa. Un sistema de recomendación puede ayudar a los clientes a encontrar ropa en la que estén interesados y puede mejorar la rotación. Este trabajo tiene dos objetivos principales: mejorar la clasificación de la moda y desarrollar un sistema de recomendación de moda. El objetivo principal de la clasificación de la moda es aplicar un Vision Transformer (ViT) para mejorar el rendimiento. ViT es un conjunto de bloques transformadores; cada bloque transformador consta de dos capas: una capa de autoatención de varias cabezas y una capa de perceptrón multicapa (MLP). Los hiperparámetros de ViT se configuran en función del conjunto de datos de imágenes de moda. Los modelos CNN tienen diferentes capas, incluidas capas de multi-convolución, capas de multi-max pooling, capas de multi-dropout, capas de multi-conexión completa y capas de normalización de lotes. Además, ViT se compara con diferentes modelos, es decir, modelos CNN profundos, VGG16, DenseNet-121, Mobilenet y ResNet50, utilizando diferentes métodos de evaluación y dos conjuntos de datos de imágenes de moda. El modelo ViT tiene el mejor rendimiento en el conjunto de datos Fashion-MNIST (precisión = 95.20, recordatorio = 95.25, puntuación F1 = 95.20). ViT registra el mejor rendimiento en comparación con otros modelos en el conjunto de datos de productos de moda (precisión = 98.42, recordatorio = 98.53, puntuación F1 = 98.46). Se desarrolla un sistema de recomendación de moda utilizando Learning Robust Visual Features without Supervision (DINOv2) y una búsqueda del vecino más cercano que se construye en la biblioteca FAISS para obtener los cinco resultados de similitud principales para imágenes específicas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro