Algoritmo de recuperación cruzada de similitud de tripletes de aprendizaje adversarial profundo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Algoritmo de recuperación cruzada de similitud de tripletes de aprendizaje adversarial profundo

Autores: Li, Guokun; Wang, Zhen; Xu, Shibo; Feng, Chuang; Yang, Xiaohan; Wu, Nannan; Sun, Fuzhen

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Algoritmo de recuperación cruzada de similitud de tripletes de aprendizaje adversarial profundo

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Recuperación cruzada de modalidades

Aprendizaje adversario profundo

Preservación de similitud de tripletes

Espacio común

Relación de similitud intermodal

GANs

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones

La tarea de recuperación cruzada de modalidades puede devolver diferentes vecinos más cercanos modales, como imagen o texto. Sin embargo, la distribución inconsistente y la representación diversa hacen que sea difícil medir directamente la relación de similitud entre muestras modales diferentes, lo que causa una brecha de heterogeneidad. Para superar la brecha mencionada anteriormente, proponemos el algoritmo de recuperación cruzada de modalidades con preservación de similitud triple de aprendizaje adversario profundo para mapear diferentes muestras modales en un espacio común, permitiendo que su representación de características preserve tanto la relación de similitud semántica original inter- como intra-modal. Durante el proceso de entrenamiento, empleamos GANs, que tienen ventajas en la modelización de la distribución de datos y el aprendizaje de representaciones discriminativas, para aprender características modales diferentes. Como resultado, puede alinear las distribuciones de características modales diferentes. En general, muchos algoritmos de recuperación cruzada de modalidades solo preservan la relación de similitud intermodal, lo que hace que los resultados de recuperación de vecinos más cercanos sean vulnerables al ruido. En contraste, establecemos la función de preservación de similitud triple para preservar simultáneamente la relación de similitud inter- e intra-modal en el espacio común y en cada espacio modal, respectivamente. Por lo tanto, el algoritmo propuesto tiene una fuerte robustez al ruido. En cada espacio modal, para asegurar que las características generadas tengan la misma información semántica que las etiquetas de muestra, establecemos un clasificador lineal y requerimos que los resultados de clasificación de las características generadas sean consistentes con las etiquetas de muestra. Realizamos experimentos comparativos de recuperación cruzada de modalidades en dos conjuntos de datos de referencia ampliamente utilizados: Pascal Sentence y Wikipedia. Para la tarea de imagen a texto, nuestro método propuesto mejoró los valores de mAP en un 1% y 0,7% en los conjuntos de datos de Pascal Sentence y Wikipedia, respectivamente. Correspondientemente, el método propuesto mejoró por separado los valores de mAP del rendimiento de texto a imagen en un 0,6% y 0,8% en los conjuntos de datos de Pascal Sentence y Wikipedia, respectivamente. Los resultados experimentales muestran que el algoritmo propuesto es mejor que otros métodos de vanguardia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro