Un método de fundamentación del lenguaje visual mejorado con precisión fusionado con intención de mirada

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un método de fundamentación del lenguaje visual mejorado con precisión fusionado con intención de mirada

Autores: Zhang, Junqian; Tu, Long; Zhang, Yakun; Xie, Liang; Xu, Minpeng; Ming, Dong; Yan, Ye; Yin, Erwei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Un método de fundamentación del lenguaje visual mejorado con precisión fusionado con intención de mirada

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Anclaje visual

Realidad aumentada

Realidad virtual

Interacción visual

Conjunto de datos multimodal

Modelo basado en la atención

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

La fusión visual tiene como objetivo reconocer y localizar el objetivo en la imagen según la intención humana, lo que proporciona una nueva idea y método de interacción inteligente para los dispositivos de realidad aumentada (AR) y realidad virtual (VR). Sin embargo, el enfoque actual de la fusión de lenguaje visual adopta modales de lenguaje para la fusión visual, pero funciona de manera ineficaz para imágenes que contienen múltiples objetos similares. La interacción visual es un modo de interacción importante en los dispositivos AR/VR, y proporciona una solución avanzada a los casos de fusión de lenguaje visual inexactos. Basándonos en las preguntas y análisis anteriores, se propone un marco de fusión de lenguaje visual fusionado con la intención visual. En primer lugar, recopilamos las anotaciones manuales de la mirada utilizando el dispositivo AR y construimos un nuevo conjunto de datos multimodal, RefCOCOg-Gaze, combinándolo con los métodos de aumento de datos propuestos. En segundo lugar, se diseña un modelo de fusión de características multimodales basado en la atención, que proporciona un marco de referencia para la fusión de lenguaje visual con intención visual (VLG-Gaze). A través de una serie de experimentos diseñados de manera precisa, analizamos cualitativa y cuantitativamente el conjunto de datos y el marco propuestos. Comparando con el modelo actual de fusión de lenguaje visual de vanguardia, nuestro esquema propuesto mejora la precisión en un 5,3%, lo que indica la importancia de la fusión de miradas en tareas de fusión multimodal.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro