Un marco simple para el razonamiento de gráficos de escena con comprensión semántica de la estructura de oraciones complejas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un marco simple para el razonamiento de gráficos de escena con comprensión semántica de la estructura de oraciones complejas

Autores: Heo, Yoonseok; Kang, Sangwoo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Un marco simple para el razonamiento de gráficos de escena con comprensión semántica de la estructura de oraciones complejas

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Entorno multimedia en expansión

Multimodalidad

Inteligencia visual y del lenguaje

Relaciones entre objetos

Preguntas y respuestas visuales estructuradas en gráficos (GQA)

Razonamiento de gráficos de escena

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

Un entorno multimedia en rápida expansión en los últimos años ha llevado a un aumento explosivo en la demanda de multimodalidad que pueda comunicarse con los humanos de diversas maneras. A pesar de que la convergencia de la inteligencia visual y del lenguaje ha arrojado luz sobre el notable éxito en los últimos años, todavía hay un inconveniente: se desconoce si realmente comprenden la semántica de la imagen. Más específicamente, cómo capturan correctamente las relaciones entre los objetos representados dentro de la imagen todavía se considera una caja negra. Para comprobar si tales relaciones son bien comprendidas, este trabajo se centra principalmente en la tarea de Preguntas y Respuestas visuales estructuradas en grafo (GQA) que evalúa la comprensión de una imagen razonando un grafo de escena que describe las características estructurales de una imagen en forma de lenguaje natural junto con la imagen. A diferencia de los enfoques existentes que han sido acompañados por un codificador adicional para los grafos de escena, proponemos un marco simple pero efectivo que utiliza transformadores multimodales pre-entrenados para el razonamiento de grafos de escena. Inspirados en el hecho de que un grafo de escena puede considerarse como un conjunto de oraciones que describen dos objetos relacionados con una relación, los fusionamos en el marco por separado de la pregunta. Además, proponemos un método de aprendizaje multi-tarea que utiliza la evaluación de la validez gramatical de las preguntas como tarea auxiliar para comprender mejor una pregunta con estructuras complejas. Esto utiliza las etiquetas de roles semánticos de la pregunta para mezclar aleatoriamente la estructura de las oraciones de la pregunta. Hemos realizado experimentos extensos para evaluar la efectividad en términos de capacidades de la tarea, estudios de ablación y generalización.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro