Algoritmo de recuperación cruzada de similitud de tripletes de aprendizaje adversarial profundo
Autores: Li, Guokun; Wang, Zhen; Xu, Shibo; Feng, Chuang; Yang, Xiaohan; Wu, Nannan; Sun, Fuzhen
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Algoritmo de recuperación cruzada de similitud de tripletes de aprendizaje adversarial profundo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Recuperación cruzada de modalidades
Aprendizaje adversario profundo
Preservación de similitud de tripletes
Espacio común
Relación de similitud intermodal
GANs
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
La tarea de recuperación cruzada de modalidades puede devolver diferentes vecinos más cercanos modales, como imagen o texto. Sin embargo, la distribución inconsistente y la representación diversa hacen que sea difícil medir directamente la relación de similitud entre muestras modales diferentes, lo que causa una brecha de heterogeneidad. Para superar la brecha mencionada anteriormente, proponemos el algoritmo de recuperación cruzada de modalidades con preservación de similitud triple de aprendizaje adversario profundo para mapear diferentes muestras modales en un espacio común, permitiendo que su representación de características preserve tanto la relación de similitud semántica original inter- como intra-modal. Durante el proceso de entrenamiento, empleamos GANs, que tienen ventajas en la modelización de la distribución de datos y el aprendizaje de representaciones discriminativas, para aprender características modales diferentes. Como resultado, puede alinear las distribuciones de características modales diferentes. En general, muchos algoritmos de recuperación cruzada de modalidades solo preservan la relación de similitud intermodal, lo que hace que los resultados de recuperación de vecinos más cercanos sean vulnerables al ruido. En contraste, establecemos la función de preservación de similitud triple para preservar simultáneamente la relación de similitud inter- e intra-modal en el espacio común y en cada espacio modal, respectivamente. Por lo tanto, el algoritmo propuesto tiene una fuerte robustez al ruido. En cada espacio modal, para asegurar que las características generadas tengan la misma información semántica que las etiquetas de muestra, establecemos un clasificador lineal y requerimos que los resultados de clasificación de las características generadas sean consistentes con las etiquetas de muestra. Realizamos experimentos comparativos de recuperación cruzada de modalidades en dos conjuntos de datos de referencia ampliamente utilizados: Pascal Sentence y Wikipedia. Para la tarea de imagen a texto, nuestro método propuesto mejoró los valores de mAP en un 1% y 0,7% en los conjuntos de datos de Pascal Sentence y Wikipedia, respectivamente. Correspondientemente, el método propuesto mejoró por separado los valores de mAP del rendimiento de texto a imagen en un 0,6% y 0,8% en los conjuntos de datos de Pascal Sentence y Wikipedia, respectivamente. Los resultados experimentales muestran que el algoritmo propuesto es mejor que otros métodos de vanguardia.
Descripción
La tarea de recuperación cruzada de modalidades puede devolver diferentes vecinos más cercanos modales, como imagen o texto. Sin embargo, la distribución inconsistente y la representación diversa hacen que sea difícil medir directamente la relación de similitud entre muestras modales diferentes, lo que causa una brecha de heterogeneidad. Para superar la brecha mencionada anteriormente, proponemos el algoritmo de recuperación cruzada de modalidades con preservación de similitud triple de aprendizaje adversario profundo para mapear diferentes muestras modales en un espacio común, permitiendo que su representación de características preserve tanto la relación de similitud semántica original inter- como intra-modal. Durante el proceso de entrenamiento, empleamos GANs, que tienen ventajas en la modelización de la distribución de datos y el aprendizaje de representaciones discriminativas, para aprender características modales diferentes. Como resultado, puede alinear las distribuciones de características modales diferentes. En general, muchos algoritmos de recuperación cruzada de modalidades solo preservan la relación de similitud intermodal, lo que hace que los resultados de recuperación de vecinos más cercanos sean vulnerables al ruido. En contraste, establecemos la función de preservación de similitud triple para preservar simultáneamente la relación de similitud inter- e intra-modal en el espacio común y en cada espacio modal, respectivamente. Por lo tanto, el algoritmo propuesto tiene una fuerte robustez al ruido. En cada espacio modal, para asegurar que las características generadas tengan la misma información semántica que las etiquetas de muestra, establecemos un clasificador lineal y requerimos que los resultados de clasificación de las características generadas sean consistentes con las etiquetas de muestra. Realizamos experimentos comparativos de recuperación cruzada de modalidades en dos conjuntos de datos de referencia ampliamente utilizados: Pascal Sentence y Wikipedia. Para la tarea de imagen a texto, nuestro método propuesto mejoró los valores de mAP en un 1% y 0,7% en los conjuntos de datos de Pascal Sentence y Wikipedia, respectivamente. Correspondientemente, el método propuesto mejoró por separado los valores de mAP del rendimiento de texto a imagen en un 0,6% y 0,8% en los conjuntos de datos de Pascal Sentence y Wikipedia, respectivamente. Los resultados experimentales muestran que el algoritmo propuesto es mejor que otros métodos de vanguardia.