Un método de fundamentación del lenguaje visual mejorado con precisión fusionado con intención de mirada
Autores: Zhang, Junqian; Tu, Long; Zhang, Yakun; Xie, Liang; Xu, Minpeng; Ming, Dong; Yan, Ye; Yin, Erwei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un método de fundamentación del lenguaje visual mejorado con precisión fusionado con intención de mirada
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Anclaje visual
Realidad aumentada
Realidad virtual
Interacción visual
Conjunto de datos multimodal
Modelo basado en la atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La fusión visual tiene como objetivo reconocer y localizar el objetivo en la imagen según la intención humana, lo que proporciona una nueva idea y método de interacción inteligente para los dispositivos de realidad aumentada (AR) y realidad virtual (VR). Sin embargo, el enfoque actual de la fusión de lenguaje visual adopta modales de lenguaje para la fusión visual, pero funciona de manera ineficaz para imágenes que contienen múltiples objetos similares. La interacción visual es un modo de interacción importante en los dispositivos AR/VR, y proporciona una solución avanzada a los casos de fusión de lenguaje visual inexactos. Basándonos en las preguntas y análisis anteriores, se propone un marco de fusión de lenguaje visual fusionado con la intención visual. En primer lugar, recopilamos las anotaciones manuales de la mirada utilizando el dispositivo AR y construimos un nuevo conjunto de datos multimodal, RefCOCOg-Gaze, combinándolo con los métodos de aumento de datos propuestos. En segundo lugar, se diseña un modelo de fusión de características multimodales basado en la atención, que proporciona un marco de referencia para la fusión de lenguaje visual con intención visual (VLG-Gaze). A través de una serie de experimentos diseñados de manera precisa, analizamos cualitativa y cuantitativamente el conjunto de datos y el marco propuestos. Comparando con el modelo actual de fusión de lenguaje visual de vanguardia, nuestro esquema propuesto mejora la precisión en un 5,3%, lo que indica la importancia de la fusión de miradas en tareas de fusión multimodal.
Descripción
La fusión visual tiene como objetivo reconocer y localizar el objetivo en la imagen según la intención humana, lo que proporciona una nueva idea y método de interacción inteligente para los dispositivos de realidad aumentada (AR) y realidad virtual (VR). Sin embargo, el enfoque actual de la fusión de lenguaje visual adopta modales de lenguaje para la fusión visual, pero funciona de manera ineficaz para imágenes que contienen múltiples objetos similares. La interacción visual es un modo de interacción importante en los dispositivos AR/VR, y proporciona una solución avanzada a los casos de fusión de lenguaje visual inexactos. Basándonos en las preguntas y análisis anteriores, se propone un marco de fusión de lenguaje visual fusionado con la intención visual. En primer lugar, recopilamos las anotaciones manuales de la mirada utilizando el dispositivo AR y construimos un nuevo conjunto de datos multimodal, RefCOCOg-Gaze, combinándolo con los métodos de aumento de datos propuestos. En segundo lugar, se diseña un modelo de fusión de características multimodales basado en la atención, que proporciona un marco de referencia para la fusión de lenguaje visual con intención visual (VLG-Gaze). A través de una serie de experimentos diseñados de manera precisa, analizamos cualitativa y cuantitativamente el conjunto de datos y el marco propuestos. Comparando con el modelo actual de fusión de lenguaje visual de vanguardia, nuestro esquema propuesto mejora la precisión en un 5,3%, lo que indica la importancia de la fusión de miradas en tareas de fusión multimodal.