logo móvil
Contáctanos

Un marco simple para el razonamiento de gráficos de escena con comprensión semántica de la estructura de oraciones complejas

Autores: Heo, Yoonseok; Kang, Sangwoo

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un marco simple para el razonamiento de gráficos de escena con comprensión semántica de la estructura de oraciones complejas


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Entorno multimedia en expansión
Multimodalidad
Inteligencia visual y del lenguaje
Relaciones entre objetos
Preguntas y respuestas visuales estructuradas en gráficos (GQA)
Razonamiento de gráficos de escena

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
Un entorno multimedia en rápida expansión en los últimos años ha llevado a un aumento explosivo en la demanda de multimodalidad que pueda comunicarse con los humanos de diversas maneras. A pesar de que la convergencia de la inteligencia visual y del lenguaje ha arrojado luz sobre el notable éxito en los últimos años, todavía hay un inconveniente: se desconoce si realmente comprenden la semántica de la imagen. Más específicamente, cómo capturan correctamente las relaciones entre los objetos representados dentro de la imagen todavía se considera una caja negra. Para comprobar si tales relaciones son bien comprendidas, este trabajo se centra principalmente en la tarea de Preguntas y Respuestas visuales estructuradas en grafo (GQA) que evalúa la comprensión de una imagen razonando un grafo de escena que describe las características estructurales de una imagen en forma de lenguaje natural junto con la imagen. A diferencia de los enfoques existentes que han sido acompañados por un codificador adicional para los grafos de escena, proponemos un marco simple pero efectivo que utiliza transformadores multimodales pre-entrenados para el razonamiento de grafos de escena. Inspirados en el hecho de que un grafo de escena puede considerarse como un conjunto de oraciones que describen dos objetos relacionados con una relación, los fusionamos en el marco por separado de la pregunta. Además, proponemos un método de aprendizaje multi-tarea que utiliza la evaluación de la validez gramatical de las preguntas como tarea auxiliar para comprender mejor una pregunta con estructuras complejas. Esto utiliza las etiquetas de roles semánticos de la pregunta para mezclar aleatoriamente la estructura de las oraciones de la pregunta. Hemos realizado experimentos extensos para evaluar la efectividad en términos de capacidades de la tarea, estudios de ablación y generalización.

Otros recursos que podrían interesarte

Temas Virtualpro