Red de Atención de Agregación de Información de Modalidad con Entrenamiento Adversarial para la Compleción de Grafos de Conocimiento Multi-Modal
Autores: Yilahun, Hankiz; Aili, Elyar; Imam, Seyyare; Hamdulla, Askar
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Red de Atención de Agregación de Información de Modalidad con Entrenamiento Adversarial para la Compleción de Grafos de Conocimiento Multi-Modal
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Completación de grafos de conocimiento
Características multimodales
Razonamiento cruzado de modalidades
Importancia de la modalidad
Comprensión semántica
Entrenamiento adversarial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La finalización de grafos de conocimiento multimodal (MMKGC) tiene como objetivo completar grafos de conocimiento integrando información estructural con características multimodales (por ejemplo, visuales, textuales y numéricas) y aprovechando el razonamiento cruzado dentro de un espacio semántico unificado para inferir y complementar el conocimiento factual faltante. Los métodos actuales de MMKGC han avanzado en términos de integración de información multimodal, pero han pasado por alto el desequilibrio en la importancia de las modalidades para las entidades objetivo. Tratar todas las modalidades por igual diluye la semántica crítica y amplifica información irrelevante, lo que a su vez limita la comprensión semántica y el rendimiento predictivo del modelo. Para abordar estas limitaciones, propusimos una red de atención de agregación de información de modalidad con entrenamiento adversarial para la finalización de grafos de conocimiento multimodal (MIAGAT-AT). MIAGAT-AT se centra en modelar jerárquicamente interacciones complejas cruzadas. Al combinar el mecanismo de atención de múltiples cabezas con métodos de proyección específicos de modalidad, captura con precisión las dependencias semánticas globales y ajusta dinámicamente el peso de las incrustaciones de modalidad según la importancia de cada modalidad, optimizando así las capacidades de fusión de información cruzada. Además, mediante el uso de ruido aleatorio y bloques residuales de múltiples capas, el entrenamiento adversarial genera representaciones de características multimodales de alta calidad, mejorando así de manera efectiva la información de modalidades desequilibradas. Los resultados experimentales demuestran que nuestro enfoque supera significativamente 18 líneas base existentes y establece una sólida línea base de rendimiento en tres conjuntos de datos distintos.
Descripción
La finalización de grafos de conocimiento multimodal (MMKGC) tiene como objetivo completar grafos de conocimiento integrando información estructural con características multimodales (por ejemplo, visuales, textuales y numéricas) y aprovechando el razonamiento cruzado dentro de un espacio semántico unificado para inferir y complementar el conocimiento factual faltante. Los métodos actuales de MMKGC han avanzado en términos de integración de información multimodal, pero han pasado por alto el desequilibrio en la importancia de las modalidades para las entidades objetivo. Tratar todas las modalidades por igual diluye la semántica crítica y amplifica información irrelevante, lo que a su vez limita la comprensión semántica y el rendimiento predictivo del modelo. Para abordar estas limitaciones, propusimos una red de atención de agregación de información de modalidad con entrenamiento adversarial para la finalización de grafos de conocimiento multimodal (MIAGAT-AT). MIAGAT-AT se centra en modelar jerárquicamente interacciones complejas cruzadas. Al combinar el mecanismo de atención de múltiples cabezas con métodos de proyección específicos de modalidad, captura con precisión las dependencias semánticas globales y ajusta dinámicamente el peso de las incrustaciones de modalidad según la importancia de cada modalidad, optimizando así las capacidades de fusión de información cruzada. Además, mediante el uso de ruido aleatorio y bloques residuales de múltiples capas, el entrenamiento adversarial genera representaciones de características multimodales de alta calidad, mejorando así de manera efectiva la información de modalidades desequilibradas. Los resultados experimentales demuestran que nuestro enfoque supera significativamente 18 líneas base existentes y establece una sólida línea base de rendimiento en tres conjuntos de datos distintos.