Generación de gráficos de escena basada en conocimiento con dependencia contextual visual
Autores: Zhang, Lizong; Yin, Haojun; Hui, Bei; Liu, Sijuan; Zhang, Wei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Generación de gráficos de escena basada en conocimiento con dependencia contextual visual
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Generación de gráficos de escena
Aplicaciones de visión por computadora
Características visuales
Información auxiliar
Modelo basado en conocimiento
Predicción de relaciones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
La generación del grafo de escena es la base de varias aplicaciones de visión por computadora, incluyendo la recuperación de imágenes, respuestas a preguntas visuales y descripción de imágenes. Los estudios previos se han basado en características visuales o han incorporado información auxiliar para predecir las relaciones entre objetos. Sin embargo, las ricas semánticas del conocimiento externo aún no se han utilizado completamente, y la combinación de información visual y auxiliar puede llevar a dependencias visuales, lo que afecta la predicción de relaciones entre objetos. Por lo tanto, proponemos un modelo novedoso basado en conocimiento con dependencia contextual visual ajustable. Nuestro modelo tiene tres componentes clave. El primer módulo extrae las características visuales y las cajas delimitadoras en la imagen de entrada. El segundo módulo utiliza dos codificadores para integrar completamente la información visual y el conocimiento externo. Finalmente, se introducen pérdidas de contexto visual y pérdidas de relaciones visuales para ajustar la dependencia visual del modelo. La diferencia entre los resultados de predicción iniciales y los resultados de dependencia visual se calcula para generar los resultados corregidos de dependencia. El modelo propuesto puede obtener mejor información global y contextual para predecir las relaciones entre objetos, y las dependencias visuales pueden ajustarse a través de las dos funciones de pérdida. Los resultados de experimentos extensos muestran que nuestro modelo supera a la mayoría de los métodos existentes.
Descripción
La generación del grafo de escena es la base de varias aplicaciones de visión por computadora, incluyendo la recuperación de imágenes, respuestas a preguntas visuales y descripción de imágenes. Los estudios previos se han basado en características visuales o han incorporado información auxiliar para predecir las relaciones entre objetos. Sin embargo, las ricas semánticas del conocimiento externo aún no se han utilizado completamente, y la combinación de información visual y auxiliar puede llevar a dependencias visuales, lo que afecta la predicción de relaciones entre objetos. Por lo tanto, proponemos un modelo novedoso basado en conocimiento con dependencia contextual visual ajustable. Nuestro modelo tiene tres componentes clave. El primer módulo extrae las características visuales y las cajas delimitadoras en la imagen de entrada. El segundo módulo utiliza dos codificadores para integrar completamente la información visual y el conocimiento externo. Finalmente, se introducen pérdidas de contexto visual y pérdidas de relaciones visuales para ajustar la dependencia visual del modelo. La diferencia entre los resultados de predicción iniciales y los resultados de dependencia visual se calcula para generar los resultados corregidos de dependencia. El modelo propuesto puede obtener mejor información global y contextual para predecir las relaciones entre objetos, y las dependencias visuales pueden ajustarse a través de las dos funciones de pérdida. Los resultados de experimentos extensos muestran que nuestro modelo supera a la mayoría de los métodos existentes.