Un modelo de respuesta a preguntas sobre video basado en destilación de conocimiento

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un modelo de respuesta a preguntas sobre video basado en destilación de conocimiento

Autores: Shao, Zhuang; Wan, Jiahui; Zong, Linlin

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Un modelo de respuesta a preguntas sobre video basado en destilación de conocimiento

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Respuesta a preguntas en video

Destilación de conocimiento multimodal

Compresión de modelos

Mejora de características

Información cruzada modal

Rendimiento del modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La respuesta a preguntas en video (QA) es una tarea multimodal que requiere comprender el contenido del video para responder preguntas. Las técnicas actuales abordan este desafío empleando módulos apilados, como mecanismos de atención y redes neuronales convolucionales de grafos. Estos métodos razonan sobre la semántica de las características del video y su interacción con preguntas basadas en texto, obteniendo excelentes resultados. Sin embargo, estos enfoques a menudo aprenden y fusionan características que representan diferentes aspectos del video por separado, descuidando la interacción intra e ignorando las complejas correlaciones latentes entre las características extraídas. Además, la apilación de módulos introduce un gran número de parámetros, lo que hace que el entrenamiento del modelo sea más desafiante. Para abordar estos problemas, proponemos un nuevo método de destilación de conocimiento multimodal que aprovecha las fortalezas de la destilación de conocimiento para la compresión del modelo y la mejora de características. Específicamente, las características fusionadas en el modelo maestro más grande se destilan en conocimiento, que guía el aprendizaje de las características de apariencia y movimiento en el modelo estudiante más pequeño. Al incorporar información multimodal en las primeras etapas, las características de apariencia y movimiento pueden descubrir sus relaciones potenciales relacionadas y complementarias, mejorando así el rendimiento general del modelo. A pesar de su simplicidad, nuestros extensos experimentos en los conjuntos de datos de QA de video más utilizados, MSVD-QA y MSRVTT-QA, demuestran claras mejoras en el rendimiento en comparación con métodos anteriores. Estos resultados validan la efectividad del enfoque de destilación de conocimiento propuesto.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro