Aprendizaje cruzado basado en correlación semántica y aprendizaje multi-tarea para recuperación de texto y video

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje cruzado basado en correlación semántica y aprendizaje multi-tarea para recuperación de texto y video

Autores: Wu, Xiaoyu; Wang, Tiantian; Wang, Shengjin

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Aprendizaje cruzado basado en correlación semántica y aprendizaje multi-tarea para recuperación de texto y video

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Video

Texto

Semántico

Multi-modal

Recuperación

Aprendizaje

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones

Las tareas de recuperación de texto-video enfrentan un gran desafío en la brecha semántica entre la información multimodal. Algunos métodos existentes transforman el texto o el video en el mismo subespacio para medir su similitud. Sin embargo, este tipo de método no considera agregar una restricción de consistencia semántica al asociar las dos modalidades de codificación semántica, y el resultado asociado es pobre. En este documento, proponemos un algoritmo de recuperación multimodal basado en asociación semántica y aprendizaje multitarea. Primero, se extraen las características de varios niveles de video o texto basadas en múltiples redes de aprendizaje profundo, de modo que la información de las dos modalidades pueda estar completamente codificada. Luego, en el espacio de características público donde se mapean juntas la información de las dos modalidades, proponemos una medida de similitud semántica y clasificación de consistencia semántica basada en características de texto-video para un marco de aprendizaje multitarea. Con la tarea de clasificación de consistencia semántica, el aprendizaje de la tarea de asociación semántica está restringido. Así, el aprendizaje multitarea guía el mejor mapeo de características de las dos modalidades y optimiza la construcción de un subespacio de características unificado. Finalmente, los resultados experimentales de nuestro algoritmo propuesto en el conjunto de datos de Descripción de Video de Microsoft (MSVD) y MSR-Video a Texto (MSR-VTT) son mejores que la investigación existente, lo que demuestra que nuestro algoritmo puede mejorar el rendimiento de la recuperación multimodal.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro