Mfvc: leyenda de video de escena de tráfico urbano basada en fusión multimodal

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mfvc: leyenda de video de escena de tráfico urbano basada en fusión multimodal

Autores: Li, Mingxing; Zhang, Hao; Xu, Cheng; Yan, Chenyang; Liu, Hongzhe; Li, Xuewei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Mfvc: leyenda de video de escena de tráfico urbano basada en fusión multimodal

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Desarrollo

Tecnología electrónica

Coches inteligentes

Algoritmo de subtítulos de video

Fusión multimodal

Modelo basado en Transformer

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

Con el desarrollo de la tecnología electrónica, los automóviles inteligentes pueden gradualmente realizar algoritmos de inteligencia artificial más complejos. El algoritmo de subtítulos de video es uno de ellos. Sin embargo, los algoritmos actuales de subtítulos de video solo consideran información visual única cuando se aplican a escenas de tráfico urbano, lo que lleva a la incapacidad de generar subtítulos precisos de conjuntos complejos. El algoritmo de fusión multimodal basado en Transformer es una de las soluciones a este problema. Sin embargo, los algoritmos existentes tienen dificultades de bajo rendimiento de fusión y alta complejidad computacional. Proponemos un nuevo modelo basado en Transformer para subtítulos de video, el MFVC (Fusión Multimodal para Subtítulos de Video), para resolver estos problemas. Introducimos datos modales de audio y el módulo de cuello de botella de atención para aumentar la información disponible para describir el modelo generativo y mejorar el efecto del modelo con menores costos operativos a través del módulo de cuello de botella de atención. Finalmente, se realiza el experimento en los conjuntos de datos disponibles, MSR-VTT y MSVD. Mientras tanto, para verificar el efecto del modelo en la escena de tráfico urbano, se lleva a cabo el experimento en el conjunto de datos de subtítulos de tráfico autoconstruido BUUISE, y el índice de evaluación confirma el modelo. Este modelo puede lograr buenos resultados en ambos conjuntos de datos disponibles y conjuntos de datos de tráfico urbano y tiene excelentes perspectivas de aplicación en la industria de la conducción inteligente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro