logo móvil
Contáctanos

Mfvc: leyenda de video de escena de tráfico urbano basada en fusión multimodal

Autores: Li, Mingxing; Zhang, Hao; Xu, Cheng; Yan, Chenyang; Liu, Hongzhe; Li, Xuewei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Mfvc: leyenda de video de escena de tráfico urbano basada en fusión multimodal


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Desarrollo
Tecnología electrónica
Coches inteligentes
Algoritmo de subtítulos de video
Fusión multimodal
Modelo basado en Transformer

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones


Descripción
Con el desarrollo de la tecnología electrónica, los automóviles inteligentes pueden gradualmente realizar algoritmos de inteligencia artificial más complejos. El algoritmo de subtítulos de video es uno de ellos. Sin embargo, los algoritmos actuales de subtítulos de video solo consideran información visual única cuando se aplican a escenas de tráfico urbano, lo que lleva a la incapacidad de generar subtítulos precisos de conjuntos complejos. El algoritmo de fusión multimodal basado en Transformer es una de las soluciones a este problema. Sin embargo, los algoritmos existentes tienen dificultades de bajo rendimiento de fusión y alta complejidad computacional. Proponemos un nuevo modelo basado en Transformer para subtítulos de video, el MFVC (Fusión Multimodal para Subtítulos de Video), para resolver estos problemas. Introducimos datos modales de audio y el módulo de cuello de botella de atención para aumentar la información disponible para describir el modelo generativo y mejorar el efecto del modelo con menores costos operativos a través del módulo de cuello de botella de atención. Finalmente, se realiza el experimento en los conjuntos de datos disponibles, MSR-VTT y MSVD. Mientras tanto, para verificar el efecto del modelo en la escena de tráfico urbano, se lleva a cabo el experimento en el conjunto de datos de subtítulos de tráfico autoconstruido BUUISE, y el índice de evaluación confirma el modelo. Este modelo puede lograr buenos resultados en ambos conjuntos de datos disponibles y conjuntos de datos de tráfico urbano y tiene excelentes perspectivas de aplicación en la industria de la conducción inteligente.

Otros recursos que podrían interesarte

Temas Virtualpro