Un marco simple para el razonamiento de gráficos de escena con comprensión semántica de la estructura de oraciones complejas
Autores: Heo, Yoonseok; Kang, Sangwoo
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un marco simple para el razonamiento de gráficos de escena con comprensión semántica de la estructura de oraciones complejas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Entorno multimedia en expansión
Multimodalidad
Inteligencia visual y del lenguaje
Relaciones entre objetos
Preguntas y respuestas visuales estructuradas en gráficos (GQA)
Razonamiento de gráficos de escena
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Un entorno multimedia en rápida expansión en los últimos años ha llevado a un aumento explosivo en la demanda de multimodalidad que pueda comunicarse con los humanos de diversas maneras. A pesar de que la convergencia de la inteligencia visual y del lenguaje ha arrojado luz sobre el notable éxito en los últimos años, todavía hay un inconveniente: se desconoce si realmente comprenden la semántica de la imagen. Más específicamente, cómo capturan correctamente las relaciones entre los objetos representados dentro de la imagen todavía se considera una caja negra. Para comprobar si tales relaciones son bien comprendidas, este trabajo se centra principalmente en la tarea de Preguntas y Respuestas visuales estructuradas en grafo (GQA) que evalúa la comprensión de una imagen razonando un grafo de escena que describe las características estructurales de una imagen en forma de lenguaje natural junto con la imagen. A diferencia de los enfoques existentes que han sido acompañados por un codificador adicional para los grafos de escena, proponemos un marco simple pero efectivo que utiliza transformadores multimodales pre-entrenados para el razonamiento de grafos de escena. Inspirados en el hecho de que un grafo de escena puede considerarse como un conjunto de oraciones que describen dos objetos relacionados con una relación, los fusionamos en el marco por separado de la pregunta. Además, proponemos un método de aprendizaje multi-tarea que utiliza la evaluación de la validez gramatical de las preguntas como tarea auxiliar para comprender mejor una pregunta con estructuras complejas. Esto utiliza las etiquetas de roles semánticos de la pregunta para mezclar aleatoriamente la estructura de las oraciones de la pregunta. Hemos realizado experimentos extensos para evaluar la efectividad en términos de capacidades de la tarea, estudios de ablación y generalización.
Descripción
Un entorno multimedia en rápida expansión en los últimos años ha llevado a un aumento explosivo en la demanda de multimodalidad que pueda comunicarse con los humanos de diversas maneras. A pesar de que la convergencia de la inteligencia visual y del lenguaje ha arrojado luz sobre el notable éxito en los últimos años, todavía hay un inconveniente: se desconoce si realmente comprenden la semántica de la imagen. Más específicamente, cómo capturan correctamente las relaciones entre los objetos representados dentro de la imagen todavía se considera una caja negra. Para comprobar si tales relaciones son bien comprendidas, este trabajo se centra principalmente en la tarea de Preguntas y Respuestas visuales estructuradas en grafo (GQA) que evalúa la comprensión de una imagen razonando un grafo de escena que describe las características estructurales de una imagen en forma de lenguaje natural junto con la imagen. A diferencia de los enfoques existentes que han sido acompañados por un codificador adicional para los grafos de escena, proponemos un marco simple pero efectivo que utiliza transformadores multimodales pre-entrenados para el razonamiento de grafos de escena. Inspirados en el hecho de que un grafo de escena puede considerarse como un conjunto de oraciones que describen dos objetos relacionados con una relación, los fusionamos en el marco por separado de la pregunta. Además, proponemos un método de aprendizaje multi-tarea que utiliza la evaluación de la validez gramatical de las preguntas como tarea auxiliar para comprender mejor una pregunta con estructuras complejas. Esto utiliza las etiquetas de roles semánticos de la pregunta para mezclar aleatoriamente la estructura de las oraciones de la pregunta. Hemos realizado experimentos extensos para evaluar la efectividad en términos de capacidades de la tarea, estudios de ablación y generalización.