Un red de fusión multimodal adaptativo basado en gradientes multilineales para la respuesta a preguntas visuales
Autores: Zhao, Chengfang; Tang, Mingwei; Zheng, Yanxi; Ran, Chaocong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un red de fusión multimodal adaptativo basado en gradientes multilineales para la respuesta a preguntas visuales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Procesamiento de lenguaje natural
Visión por computadora
Respuesta a preguntas visuales
Extracción de características multimodales
Relaciones semánticas
Fusión multimodal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Como un campo interdisciplinario de procesamiento de lenguaje natural y visión por computadora, la Respuesta a Preguntas Visuales (VQA) ha surgido como un enfoque de investigación prominente en inteligencia artificial.
Descripción
Como un campo interdisciplinario de procesamiento de lenguaje natural y visión por computadora, la Respuesta a Preguntas Visuales (VQA) ha surgido como un enfoque de investigación prominente en inteligencia artificial.