Utilizando auto-distilación y red de desentrelazamiento para mejorar la consistencia de características visuales-semánticas en el aprendizaje generalizado de cero disparos
Autores: Liu, Xiaoming; Wang, Chen; Yang, Guan; Wang, Chunhua; Long, Yang; Liu, Jie; Zhang, Zhiyuan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Utilizando auto-distilación y red de desentrelazamiento para mejorar la consistencia de características visuales-semánticas en el aprendizaje generalizado de cero disparos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje sin etiquetas
GZSL
Características visuales-semánticas
Auto-destilación
Red de desentrelazamiento
Información semántica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
El aprendizaje generalizado de cero disparos (GZSL) tiene como objetivo reconocer simultáneamente tanto las clases vistas como las clases no vistas mediante el entrenamiento solo en muestras de clases vistas y descripciones semánticas auxiliares. Los métodos actuales de vanguardia infieren clases no vistas basadas en información semántica o sintetizan clases no vistas utilizando modelos generativos basados en información semántica, todos los cuales dependen de la correcta alineación de características visuales-semánticas. Sin embargo, a menudo pasan por alto la inconsistencia entre las características visuales originales y los atributos semánticos. Además, debido a la existencia de sesgos en conjuntos de datos cruzados modales, las características visuales extraídas y sintetizadas por el modelo también pueden no coincidir con algunas características semánticas, lo que podría dificultar que el modelo alinee adecuadamente las características visuales-semánticas. Para abordar este problema, este artículo propone un marco GZSL que mejora la consistencia de las características visuales-semánticas utilizando una red de auto-difusión y desentrelazamiento (SDDN). El objetivo es utilizar la red de auto-difusión y desentrelazamiento para obtener características visuales refinadas consistentes semánticamente y características semánticas no redundantes para mejorar la consistencia de las características visuales-semánticas. En primer lugar, SDDN utiliza la tecnología de auto-difusión para refinar las características visuales extraídas y sintetizadas del modelo. Posteriormente, las características visuales-semánticas se desentrelazan y alinean utilizando una red de desentrelazamiento para mejorar la consistencia de las características visuales-semánticas. Finalmente, las características visuales-semánticas consistentes se fusionan para entrenar conjuntamente un clasificador GZSL. Experimentos extensos demuestran que el método propuesto logra resultados más competitivos en cuatro conjuntos de datos de referencia desafiantes (AWA2, CUB, FLO y SUN).
Descripción
El aprendizaje generalizado de cero disparos (GZSL) tiene como objetivo reconocer simultáneamente tanto las clases vistas como las clases no vistas mediante el entrenamiento solo en muestras de clases vistas y descripciones semánticas auxiliares. Los métodos actuales de vanguardia infieren clases no vistas basadas en información semántica o sintetizan clases no vistas utilizando modelos generativos basados en información semántica, todos los cuales dependen de la correcta alineación de características visuales-semánticas. Sin embargo, a menudo pasan por alto la inconsistencia entre las características visuales originales y los atributos semánticos. Además, debido a la existencia de sesgos en conjuntos de datos cruzados modales, las características visuales extraídas y sintetizadas por el modelo también pueden no coincidir con algunas características semánticas, lo que podría dificultar que el modelo alinee adecuadamente las características visuales-semánticas. Para abordar este problema, este artículo propone un marco GZSL que mejora la consistencia de las características visuales-semánticas utilizando una red de auto-difusión y desentrelazamiento (SDDN). El objetivo es utilizar la red de auto-difusión y desentrelazamiento para obtener características visuales refinadas consistentes semánticamente y características semánticas no redundantes para mejorar la consistencia de las características visuales-semánticas. En primer lugar, SDDN utiliza la tecnología de auto-difusión para refinar las características visuales extraídas y sintetizadas del modelo. Posteriormente, las características visuales-semánticas se desentrelazan y alinean utilizando una red de desentrelazamiento para mejorar la consistencia de las características visuales-semánticas. Finalmente, las características visuales-semánticas consistentes se fusionan para entrenar conjuntamente un clasificador GZSL. Experimentos extensos demuestran que el método propuesto logra resultados más competitivos en cuatro conjuntos de datos de referencia desafiantes (AWA2, CUB, FLO y SUN).