logo móvil
Contáctanos

Un modelo de respuesta a preguntas sobre video basado en destilación de conocimiento

Autores: Shao, Zhuang; Wan, Jiahui; Zong, Linlin

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un modelo de respuesta a preguntas sobre video basado en destilación de conocimiento


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Respuesta a preguntas en video
Destilación de conocimiento multimodal
Compresión de modelos
Mejora de características
Información cruzada modal
Rendimiento del modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La respuesta a preguntas en video (QA) es una tarea multimodal que requiere comprender el contenido del video para responder preguntas. Las técnicas actuales abordan este desafío empleando módulos apilados, como mecanismos de atención y redes neuronales convolucionales de grafos. Estos métodos razonan sobre la semántica de las características del video y su interacción con preguntas basadas en texto, obteniendo excelentes resultados. Sin embargo, estos enfoques a menudo aprenden y fusionan características que representan diferentes aspectos del video por separado, descuidando la interacción intra e ignorando las complejas correlaciones latentes entre las características extraídas. Además, la apilación de módulos introduce un gran número de parámetros, lo que hace que el entrenamiento del modelo sea más desafiante. Para abordar estos problemas, proponemos un nuevo método de destilación de conocimiento multimodal que aprovecha las fortalezas de la destilación de conocimiento para la compresión del modelo y la mejora de características. Específicamente, las características fusionadas en el modelo maestro más grande se destilan en conocimiento, que guía el aprendizaje de las características de apariencia y movimiento en el modelo estudiante más pequeño. Al incorporar información multimodal en las primeras etapas, las características de apariencia y movimiento pueden descubrir sus relaciones potenciales relacionadas y complementarias, mejorando así el rendimiento general del modelo. A pesar de su simplicidad, nuestros extensos experimentos en los conjuntos de datos de QA de video más utilizados, MSVD-QA y MSRVTT-QA, demuestran claras mejoras en el rendimiento en comparación con métodos anteriores. Estos resultados validan la efectividad del enfoque de destilación de conocimiento propuesto.

Otros recursos que podrían interesarte

Temas Virtualpro