logo móvil
Contáctanos

Algoritmo de recuperación cruzada de similitud de tripletes de aprendizaje adversarial profundo

Autores: Li, Guokun; Wang, Zhen; Xu, Shibo; Feng, Chuang; Yang, Xiaohan; Wu, Nannan; Sun, Fuzhen

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Algoritmo de recuperación cruzada de similitud de tripletes de aprendizaje adversarial profundo


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Recuperación cruzada de modalidades
Aprendizaje adversario profundo
Preservación de similitud de tripletes
Espacio común
Relación de similitud intermodal
GANs

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
La tarea de recuperación cruzada de modalidades puede devolver diferentes vecinos más cercanos modales, como imagen o texto. Sin embargo, la distribución inconsistente y la representación diversa hacen que sea difícil medir directamente la relación de similitud entre muestras modales diferentes, lo que causa una brecha de heterogeneidad. Para superar la brecha mencionada anteriormente, proponemos el algoritmo de recuperación cruzada de modalidades con preservación de similitud triple de aprendizaje adversario profundo para mapear diferentes muestras modales en un espacio común, permitiendo que su representación de características preserve tanto la relación de similitud semántica original inter- como intra-modal. Durante el proceso de entrenamiento, empleamos GANs, que tienen ventajas en la modelización de la distribución de datos y el aprendizaje de representaciones discriminativas, para aprender características modales diferentes. Como resultado, puede alinear las distribuciones de características modales diferentes. En general, muchos algoritmos de recuperación cruzada de modalidades solo preservan la relación de similitud intermodal, lo que hace que los resultados de recuperación de vecinos más cercanos sean vulnerables al ruido. En contraste, establecemos la función de preservación de similitud triple para preservar simultáneamente la relación de similitud inter- e intra-modal en el espacio común y en cada espacio modal, respectivamente. Por lo tanto, el algoritmo propuesto tiene una fuerte robustez al ruido. En cada espacio modal, para asegurar que las características generadas tengan la misma información semántica que las etiquetas de muestra, establecemos un clasificador lineal y requerimos que los resultados de clasificación de las características generadas sean consistentes con las etiquetas de muestra. Realizamos experimentos comparativos de recuperación cruzada de modalidades en dos conjuntos de datos de referencia ampliamente utilizados: Pascal Sentence y Wikipedia. Para la tarea de imagen a texto, nuestro método propuesto mejoró los valores de mAP en un 1% y 0,7% en los conjuntos de datos de Pascal Sentence y Wikipedia, respectivamente. Correspondientemente, el método propuesto mejoró por separado los valores de mAP del rendimiento de texto a imagen en un 0,6% y 0,8% en los conjuntos de datos de Pascal Sentence y Wikipedia, respectivamente. Los resultados experimentales muestran que el algoritmo propuesto es mejor que otros métodos de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro