Leveraging dual variational autoencoders and generative adversarial networks for enhanced multimodal interaction in zero-shot learning

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Leveraging dual variational autoencoders and generative adversarial networks for enhanced multimodal interaction in zero-shot learning

Autores: Li, Ning; Chen, Jie; Fu, Nanxin; Xiao, Wenzhuo; Ye, Tianrun; Gao, Chunming; Zhang, Ping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Leveraging dual variational autoencoders and generative adversarial networks for enhanced multimodal interaction in zero-shot learning

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Clasificación taxonómica

Aprendizaje de cero disparos

Consistencia semántica

Sesgos de diversidad del conjunto de datos

Modelos de transformadores

VAE-GAN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

En el campo en evolución de la clasificación taxonómica, y especialmente en el Aprendizaje sin ejemplos (ZSL), el desafío de clasificar con precisión entidades no vistas en los conjuntos de datos de entrenamiento sigue siendo un obstáculo significativo. Aunque la literatura existente es rica en desarrollos, a menudo falla en dos áreas críticas: la consistencia semántica (asegurando que las clasificaciones se alineen con los verdaderos significados) y el manejo efectivo de sesgos de diversidad en los conjuntos de datos. Estas brechas han creado la necesidad de un enfoque más sólido que pueda navegar con mayor eficacia en ambos aspectos. Este documento presenta una integración innovadora de modelos transformadores con autoencoders variacionales (VAEs) y redes generativas adversariales (GANs), con el objetivo de abordarlos dentro del marco de ZSL. La elección de VAE-GAN se basa en sus fortalezas complementarias: los VAE son competentes en proporcionar una representación más rica de los patrones de datos, y las GAN son capaces de generar datos que son diversos pero representativos, mitigando así los sesgos de diversidad en los conjuntos de datos. Los transformadores se emplean para mejorar aún más la consistencia semántica, lo cual es clave porque muchos modelos existentes tienen un rendimiento deficiente. A través de experimentos realizados en conjuntos de datos de referencia de ZSL como CUB, SUN y Animals with Attributes 2 (AWA2), nuestro enfoque es novedoso porque demuestra mejoras significativas, no solo en mejorar la coherencia semántica y estructural, sino también en abordar eficazmente los sesgos de los conjuntos de datos. Esto conduce a una mejora notable en la capacidad del modelo para generalizar tareas de categorización visual más allá de los datos de entrenamiento, llenando así una brecha crítica en el panorama actual de la investigación de ZSL.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro