Mfvc: leyenda de video de escena de tráfico urbano basada en fusión multimodal
Autores: Li, Mingxing; Zhang, Hao; Xu, Cheng; Yan, Chenyang; Liu, Hongzhe; Li, Xuewei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mfvc: leyenda de video de escena de tráfico urbano basada en fusión multimodal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Desarrollo
Tecnología electrónica
Coches inteligentes
Algoritmo de subtítulos de video
Fusión multimodal
Modelo basado en Transformer
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
Con el desarrollo de la tecnología electrónica, los automóviles inteligentes pueden gradualmente realizar algoritmos de inteligencia artificial más complejos. El algoritmo de subtítulos de video es uno de ellos. Sin embargo, los algoritmos actuales de subtítulos de video solo consideran información visual única cuando se aplican a escenas de tráfico urbano, lo que lleva a la incapacidad de generar subtítulos precisos de conjuntos complejos. El algoritmo de fusión multimodal basado en Transformer es una de las soluciones a este problema. Sin embargo, los algoritmos existentes tienen dificultades de bajo rendimiento de fusión y alta complejidad computacional. Proponemos un nuevo modelo basado en Transformer para subtítulos de video, el MFVC (Fusión Multimodal para Subtítulos de Video), para resolver estos problemas. Introducimos datos modales de audio y el módulo de cuello de botella de atención para aumentar la información disponible para describir el modelo generativo y mejorar el efecto del modelo con menores costos operativos a través del módulo de cuello de botella de atención. Finalmente, se realiza el experimento en los conjuntos de datos disponibles, MSR-VTT y MSVD. Mientras tanto, para verificar el efecto del modelo en la escena de tráfico urbano, se lleva a cabo el experimento en el conjunto de datos de subtítulos de tráfico autoconstruido BUUISE, y el índice de evaluación confirma el modelo. Este modelo puede lograr buenos resultados en ambos conjuntos de datos disponibles y conjuntos de datos de tráfico urbano y tiene excelentes perspectivas de aplicación en la industria de la conducción inteligente.
Descripción
Con el desarrollo de la tecnología electrónica, los automóviles inteligentes pueden gradualmente realizar algoritmos de inteligencia artificial más complejos. El algoritmo de subtítulos de video es uno de ellos. Sin embargo, los algoritmos actuales de subtítulos de video solo consideran información visual única cuando se aplican a escenas de tráfico urbano, lo que lleva a la incapacidad de generar subtítulos precisos de conjuntos complejos. El algoritmo de fusión multimodal basado en Transformer es una de las soluciones a este problema. Sin embargo, los algoritmos existentes tienen dificultades de bajo rendimiento de fusión y alta complejidad computacional. Proponemos un nuevo modelo basado en Transformer para subtítulos de video, el MFVC (Fusión Multimodal para Subtítulos de Video), para resolver estos problemas. Introducimos datos modales de audio y el módulo de cuello de botella de atención para aumentar la información disponible para describir el modelo generativo y mejorar el efecto del modelo con menores costos operativos a través del módulo de cuello de botella de atención. Finalmente, se realiza el experimento en los conjuntos de datos disponibles, MSR-VTT y MSVD. Mientras tanto, para verificar el efecto del modelo en la escena de tráfico urbano, se lleva a cabo el experimento en el conjunto de datos de subtítulos de tráfico autoconstruido BUUISE, y el índice de evaluación confirma el modelo. Este modelo puede lograr buenos resultados en ambos conjuntos de datos disponibles y conjuntos de datos de tráfico urbano y tiene excelentes perspectivas de aplicación en la industria de la conducción inteligente.