Mejorando la clasificación de moda con Vision Transformer (ViT) y desarrollando sistemas de recomendación de moda usando DINOVA2
Autores: Abd Alaziz, Hadeer M.; Elmannai, Hela; Saleh, Hager; Hadjouni, Myriam; Anter, Ahmed M.; Koura, Abdelrahim; Kayed, Mohammed
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la clasificación de moda con Vision Transformer (ViT) y desarrollando sistemas de recomendación de moda usando DINOVA2
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Plataformas de comercio electrónico
Sistema de recomendación de ropa
Vision Transformer (ViT)
Modelos CNN
Conjuntos de datos de imágenes de moda
Sistema de recomendación de moda
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
A medida que las plataformas de comercio electrónico crecen, los consumidores compran cada vez más ropa en línea; sin embargo, a menudo necesitan aclaraciones sobre las opciones de ropa. Los consumidores y las tiendas interactúan a través del sistema de recomendación de ropa. Un sistema de recomendación puede ayudar a los clientes a encontrar ropa en la que estén interesados y puede mejorar la rotación. Este trabajo tiene dos objetivos principales: mejorar la clasificación de la moda y desarrollar un sistema de recomendación de moda. El objetivo principal de la clasificación de la moda es aplicar un Vision Transformer (ViT) para mejorar el rendimiento. ViT es un conjunto de bloques transformadores; cada bloque transformador consta de dos capas: una capa de autoatención de varias cabezas y una capa de perceptrón multicapa (MLP). Los hiperparámetros de ViT se configuran en función del conjunto de datos de imágenes de moda. Los modelos CNN tienen diferentes capas, incluidas capas de multi-convolución, capas de multi-max pooling, capas de multi-dropout, capas de multi-conexión completa y capas de normalización de lotes. Además, ViT se compara con diferentes modelos, es decir, modelos CNN profundos, VGG16, DenseNet-121, Mobilenet y ResNet50, utilizando diferentes métodos de evaluación y dos conjuntos de datos de imágenes de moda. El modelo ViT tiene el mejor rendimiento en el conjunto de datos Fashion-MNIST (precisión = 95.20, recordatorio = 95.25, puntuación F1 = 95.20). ViT registra el mejor rendimiento en comparación con otros modelos en el conjunto de datos de productos de moda (precisión = 98.42, recordatorio = 98.53, puntuación F1 = 98.46). Se desarrolla un sistema de recomendación de moda utilizando Learning Robust Visual Features without Supervision (DINOv2) y una búsqueda del vecino más cercano que se construye en la biblioteca FAISS para obtener los cinco resultados de similitud principales para imágenes específicas.
Descripción
A medida que las plataformas de comercio electrónico crecen, los consumidores compran cada vez más ropa en línea; sin embargo, a menudo necesitan aclaraciones sobre las opciones de ropa. Los consumidores y las tiendas interactúan a través del sistema de recomendación de ropa. Un sistema de recomendación puede ayudar a los clientes a encontrar ropa en la que estén interesados y puede mejorar la rotación. Este trabajo tiene dos objetivos principales: mejorar la clasificación de la moda y desarrollar un sistema de recomendación de moda. El objetivo principal de la clasificación de la moda es aplicar un Vision Transformer (ViT) para mejorar el rendimiento. ViT es un conjunto de bloques transformadores; cada bloque transformador consta de dos capas: una capa de autoatención de varias cabezas y una capa de perceptrón multicapa (MLP). Los hiperparámetros de ViT se configuran en función del conjunto de datos de imágenes de moda. Los modelos CNN tienen diferentes capas, incluidas capas de multi-convolución, capas de multi-max pooling, capas de multi-dropout, capas de multi-conexión completa y capas de normalización de lotes. Además, ViT se compara con diferentes modelos, es decir, modelos CNN profundos, VGG16, DenseNet-121, Mobilenet y ResNet50, utilizando diferentes métodos de evaluación y dos conjuntos de datos de imágenes de moda. El modelo ViT tiene el mejor rendimiento en el conjunto de datos Fashion-MNIST (precisión = 95.20, recordatorio = 95.25, puntuación F1 = 95.20). ViT registra el mejor rendimiento en comparación con otros modelos en el conjunto de datos de productos de moda (precisión = 98.42, recordatorio = 98.53, puntuación F1 = 98.46). Se desarrolla un sistema de recomendación de moda utilizando Learning Robust Visual Features without Supervision (DINOv2) y una búsqueda del vecino más cercano que se construye en la biblioteca FAISS para obtener los cinco resultados de similitud principales para imágenes específicas.