logo móvil
Contáctanos

Red de Atención de Agregación de Información de Modalidad con Entrenamiento Adversarial para la Compleción de Grafos de Conocimiento Multi-Modal

Autores: Yilahun, Hankiz; Aili, Elyar; Imam, Seyyare; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Red de Atención de Agregación de Información de Modalidad con Entrenamiento Adversarial para la Compleción de Grafos de Conocimiento Multi-Modal


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Completación de grafos de conocimiento
Características multimodales
Razonamiento cruzado de modalidades
Importancia de la modalidad
Comprensión semántica
Entrenamiento adversarial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La finalización de grafos de conocimiento multimodal (MMKGC) tiene como objetivo completar grafos de conocimiento integrando información estructural con características multimodales (por ejemplo, visuales, textuales y numéricas) y aprovechando el razonamiento cruzado dentro de un espacio semántico unificado para inferir y complementar el conocimiento factual faltante. Los métodos actuales de MMKGC han avanzado en términos de integración de información multimodal, pero han pasado por alto el desequilibrio en la importancia de las modalidades para las entidades objetivo. Tratar todas las modalidades por igual diluye la semántica crítica y amplifica información irrelevante, lo que a su vez limita la comprensión semántica y el rendimiento predictivo del modelo. Para abordar estas limitaciones, propusimos una red de atención de agregación de información de modalidad con entrenamiento adversarial para la finalización de grafos de conocimiento multimodal (MIAGAT-AT). MIAGAT-AT se centra en modelar jerárquicamente interacciones complejas cruzadas. Al combinar el mecanismo de atención de múltiples cabezas con métodos de proyección específicos de modalidad, captura con precisión las dependencias semánticas globales y ajusta dinámicamente el peso de las incrustaciones de modalidad según la importancia de cada modalidad, optimizando así las capacidades de fusión de información cruzada. Además, mediante el uso de ruido aleatorio y bloques residuales de múltiples capas, el entrenamiento adversarial genera representaciones de características multimodales de alta calidad, mejorando así de manera efectiva la información de modalidades desequilibradas. Los resultados experimentales demuestran que nuestro enfoque supera significativamente 18 líneas base existentes y establece una sólida línea base de rendimiento en tres conjuntos de datos distintos.

Otros recursos que podrían interesarte

Temas Virtualpro