logo móvil
Contáctanos

Un método de fundamentación del lenguaje visual mejorado con precisión fusionado con intención de mirada

Autores: Zhang, Junqian; Tu, Long; Zhang, Yakun; Xie, Liang; Xu, Minpeng; Ming, Dong; Yan, Ye; Yin, Erwei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un método de fundamentación del lenguaje visual mejorado con precisión fusionado con intención de mirada


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Anclaje visual
Realidad aumentada
Realidad virtual
Interacción visual
Conjunto de datos multimodal
Modelo basado en la atención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
La fusión visual tiene como objetivo reconocer y localizar el objetivo en la imagen según la intención humana, lo que proporciona una nueva idea y método de interacción inteligente para los dispositivos de realidad aumentada (AR) y realidad virtual (VR). Sin embargo, el enfoque actual de la fusión de lenguaje visual adopta modales de lenguaje para la fusión visual, pero funciona de manera ineficaz para imágenes que contienen múltiples objetos similares. La interacción visual es un modo de interacción importante en los dispositivos AR/VR, y proporciona una solución avanzada a los casos de fusión de lenguaje visual inexactos. Basándonos en las preguntas y análisis anteriores, se propone un marco de fusión de lenguaje visual fusionado con la intención visual. En primer lugar, recopilamos las anotaciones manuales de la mirada utilizando el dispositivo AR y construimos un nuevo conjunto de datos multimodal, RefCOCOg-Gaze, combinándolo con los métodos de aumento de datos propuestos. En segundo lugar, se diseña un modelo de fusión de características multimodales basado en la atención, que proporciona un marco de referencia para la fusión de lenguaje visual con intención visual (VLG-Gaze). A través de una serie de experimentos diseñados de manera precisa, analizamos cualitativa y cuantitativamente el conjunto de datos y el marco propuestos. Comparando con el modelo actual de fusión de lenguaje visual de vanguardia, nuestro esquema propuesto mejora la precisión en un 5,3%, lo que indica la importancia de la fusión de miradas en tareas de fusión multimodal.

Otros recursos que podrían interesarte

Temas Virtualpro