logo móvil
Contáctanos

Leveraging dual variational autoencoders and generative adversarial networks for enhanced multimodal interaction in zero-shot learning

Autores: Li, Ning; Chen, Jie; Fu, Nanxin; Xiao, Wenzhuo; Ye, Tianrun; Gao, Chunming; Zhang, Ping

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Leveraging dual variational autoencoders and generative adversarial networks for enhanced multimodal interaction in zero-shot learning


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Clasificación taxonómica
Aprendizaje de cero disparos
Consistencia semántica
Sesgos de diversidad del conjunto de datos
Modelos de transformadores
VAE-GAN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
En el campo en evolución de la clasificación taxonómica, y especialmente en el Aprendizaje sin ejemplos (ZSL), el desafío de clasificar con precisión entidades no vistas en los conjuntos de datos de entrenamiento sigue siendo un obstáculo significativo. Aunque la literatura existente es rica en desarrollos, a menudo falla en dos áreas críticas: la consistencia semántica (asegurando que las clasificaciones se alineen con los verdaderos significados) y el manejo efectivo de sesgos de diversidad en los conjuntos de datos. Estas brechas han creado la necesidad de un enfoque más sólido que pueda navegar con mayor eficacia en ambos aspectos. Este documento presenta una integración innovadora de modelos transformadores con autoencoders variacionales (VAEs) y redes generativas adversariales (GANs), con el objetivo de abordarlos dentro del marco de ZSL. La elección de VAE-GAN se basa en sus fortalezas complementarias: los VAE son competentes en proporcionar una representación más rica de los patrones de datos, y las GAN son capaces de generar datos que son diversos pero representativos, mitigando así los sesgos de diversidad en los conjuntos de datos. Los transformadores se emplean para mejorar aún más la consistencia semántica, lo cual es clave porque muchos modelos existentes tienen un rendimiento deficiente. A través de experimentos realizados en conjuntos de datos de referencia de ZSL como CUB, SUN y Animals with Attributes 2 (AWA2), nuestro enfoque es novedoso porque demuestra mejoras significativas, no solo en mejorar la coherencia semántica y estructural, sino también en abordar eficazmente los sesgos de los conjuntos de datos. Esto conduce a una mejora notable en la capacidad del modelo para generalizar tareas de categorización visual más allá de los datos de entrenamiento, llenando así una brecha crítica en el panorama actual de la investigación de ZSL.

Otros recursos que podrían interesarte

Temas Virtualpro