logo móvil
Contáctanos

Un red de fusión multimodal adaptativo basado en gradientes multilineales para la respuesta a preguntas visuales

Autores: Zhao, Chengfang; Tang, Mingwei; Zheng, Yanxi; Ran, Chaocong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un red de fusión multimodal adaptativo basado en gradientes multilineales para la respuesta a preguntas visuales


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Procesamiento de lenguaje natural
Visión por computadora
Respuesta a preguntas visuales
Extracción de características multimodales
Relaciones semánticas
Fusión multimodal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Como un campo interdisciplinario de procesamiento de lenguaje natural y visión por computadora, la Respuesta a Preguntas Visuales (VQA) ha surgido como un enfoque de investigación prominente en inteligencia artificial.

Otros recursos que podrían interesarte

Temas Virtualpro