Leveraging dual variational autoencoders and generative adversarial networks for enhanced multimodal interaction in zero-shot learning
Autores: Li, Ning; Chen, Jie; Fu, Nanxin; Xiao, Wenzhuo; Ye, Tianrun; Gao, Chunming; Zhang, Ping
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Leveraging dual variational autoencoders and generative adversarial networks for enhanced multimodal interaction in zero-shot learning
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Clasificación taxonómica
Aprendizaje de cero disparos
Consistencia semántica
Sesgos de diversidad del conjunto de datos
Modelos de transformadores
VAE-GAN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
En el campo en evolución de la clasificación taxonómica, y especialmente en el Aprendizaje sin ejemplos (ZSL), el desafío de clasificar con precisión entidades no vistas en los conjuntos de datos de entrenamiento sigue siendo un obstáculo significativo. Aunque la literatura existente es rica en desarrollos, a menudo falla en dos áreas críticas: la consistencia semántica (asegurando que las clasificaciones se alineen con los verdaderos significados) y el manejo efectivo de sesgos de diversidad en los conjuntos de datos. Estas brechas han creado la necesidad de un enfoque más sólido que pueda navegar con mayor eficacia en ambos aspectos. Este documento presenta una integración innovadora de modelos transformadores con autoencoders variacionales (VAEs) y redes generativas adversariales (GANs), con el objetivo de abordarlos dentro del marco de ZSL. La elección de VAE-GAN se basa en sus fortalezas complementarias: los VAE son competentes en proporcionar una representación más rica de los patrones de datos, y las GAN son capaces de generar datos que son diversos pero representativos, mitigando así los sesgos de diversidad en los conjuntos de datos. Los transformadores se emplean para mejorar aún más la consistencia semántica, lo cual es clave porque muchos modelos existentes tienen un rendimiento deficiente. A través de experimentos realizados en conjuntos de datos de referencia de ZSL como CUB, SUN y Animals with Attributes 2 (AWA2), nuestro enfoque es novedoso porque demuestra mejoras significativas, no solo en mejorar la coherencia semántica y estructural, sino también en abordar eficazmente los sesgos de los conjuntos de datos. Esto conduce a una mejora notable en la capacidad del modelo para generalizar tareas de categorización visual más allá de los datos de entrenamiento, llenando así una brecha crítica en el panorama actual de la investigación de ZSL.
Descripción
En el campo en evolución de la clasificación taxonómica, y especialmente en el Aprendizaje sin ejemplos (ZSL), el desafío de clasificar con precisión entidades no vistas en los conjuntos de datos de entrenamiento sigue siendo un obstáculo significativo. Aunque la literatura existente es rica en desarrollos, a menudo falla en dos áreas críticas: la consistencia semántica (asegurando que las clasificaciones se alineen con los verdaderos significados) y el manejo efectivo de sesgos de diversidad en los conjuntos de datos. Estas brechas han creado la necesidad de un enfoque más sólido que pueda navegar con mayor eficacia en ambos aspectos. Este documento presenta una integración innovadora de modelos transformadores con autoencoders variacionales (VAEs) y redes generativas adversariales (GANs), con el objetivo de abordarlos dentro del marco de ZSL. La elección de VAE-GAN se basa en sus fortalezas complementarias: los VAE son competentes en proporcionar una representación más rica de los patrones de datos, y las GAN son capaces de generar datos que son diversos pero representativos, mitigando así los sesgos de diversidad en los conjuntos de datos. Los transformadores se emplean para mejorar aún más la consistencia semántica, lo cual es clave porque muchos modelos existentes tienen un rendimiento deficiente. A través de experimentos realizados en conjuntos de datos de referencia de ZSL como CUB, SUN y Animals with Attributes 2 (AWA2), nuestro enfoque es novedoso porque demuestra mejoras significativas, no solo en mejorar la coherencia semántica y estructural, sino también en abordar eficazmente los sesgos de los conjuntos de datos. Esto conduce a una mejora notable en la capacidad del modelo para generalizar tareas de categorización visual más allá de los datos de entrenamiento, llenando así una brecha crítica en el panorama actual de la investigación de ZSL.