Cmkg: método de construcción de gráficos de conocimiento para reconocimiento de imágenes
Autores: Chen, Lijun; Li, Jingcan; Cai, Qiuting; Han, Xiangyu; Ma, Yunqian; Xie, Xia
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Cmkg: método de construcción de gráficos de conocimiento para reconocimiento de imágenes
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Desarrollo continuo
Tecnología de inteligencia artificial
Detección de imágenes
Tecnología de reconocimiento
Gráfico de conocimiento
Información multimodal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
Con el continuo desarrollo de la tecnología de inteligencia artificial y el crecimiento exponencial en el número de imágenes, la tecnología de detección y reconocimiento de imágenes se está utilizando cada vez más. La gestión del conocimiento de imágenes es extremadamente urgente. La fuente de datos de un grafo de conocimiento no solo son los datos de texto y estructurados, sino también los datos visuales o auditivos como imágenes, videos y audio. Cómo utilizar la información multimodal para construir una plataforma de gestión de información es un problema difícil. En este documento se propone un método para construir el resultado del reconocimiento de imágenes como un grafo de conocimiento. En primer lugar, basado en la mejora en el algoritmo BlendMASK, se agrega el núcleo de convolución hueco. En segundo lugar, se analiza el efecto del reconocimiento de imágenes y las relaciones entre todo tipo de información. Finalmente, el grafo de conocimiento de imágenes se construye utilizando la relación entre las entidades de imágenes. Las contribuciones de este documento son las siguientes. (1) Se agrega el núcleo de convolución hueco para reducir la pérdida al extraer información de características de imágenes de alto nivel. (2) En este documento, se propone un método para determinar la relación entre entidades dividiendo los resultados de reconocimiento de entidades en una imagen con un umbral, lo que hace posible que las relaciones entre imágenes estén interconectadas. Los resultados experimentales muestran que este método mejora la precisión y el valor F1 del algoritmo de reconocimiento de imágenes. Al mismo tiempo, el método logra la integridad en la construcción de un grafo de conocimiento multimodal.
Descripción
Con el continuo desarrollo de la tecnología de inteligencia artificial y el crecimiento exponencial en el número de imágenes, la tecnología de detección y reconocimiento de imágenes se está utilizando cada vez más. La gestión del conocimiento de imágenes es extremadamente urgente. La fuente de datos de un grafo de conocimiento no solo son los datos de texto y estructurados, sino también los datos visuales o auditivos como imágenes, videos y audio. Cómo utilizar la información multimodal para construir una plataforma de gestión de información es un problema difícil. En este documento se propone un método para construir el resultado del reconocimiento de imágenes como un grafo de conocimiento. En primer lugar, basado en la mejora en el algoritmo BlendMASK, se agrega el núcleo de convolución hueco. En segundo lugar, se analiza el efecto del reconocimiento de imágenes y las relaciones entre todo tipo de información. Finalmente, el grafo de conocimiento de imágenes se construye utilizando la relación entre las entidades de imágenes. Las contribuciones de este documento son las siguientes. (1) Se agrega el núcleo de convolución hueco para reducir la pérdida al extraer información de características de imágenes de alto nivel. (2) En este documento, se propone un método para determinar la relación entre entidades dividiendo los resultados de reconocimiento de entidades en una imagen con un umbral, lo que hace posible que las relaciones entre imágenes estén interconectadas. Los resultados experimentales muestran que este método mejora la precisión y el valor F1 del algoritmo de reconocimiento de imágenes. Al mismo tiempo, el método logra la integridad en la construcción de un grafo de conocimiento multimodal.