Red de Atención de Agregación de Información de Modalidad con Entrenamiento Adversarial para la Compleción de Grafos de Conocimiento Multi-Modal

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de Atención de Agregación de Información de Modalidad con Entrenamiento Adversarial para la Compleción de Grafos de Conocimiento Multi-Modal

Autores: Yilahun, Hankiz; Aili, Elyar; Imam, Seyyare; Hamdulla, Askar

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Red de Atención de Agregación de Información de Modalidad con Entrenamiento Adversarial para la Compleción de Grafos de Conocimiento Multi-Modal

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Completación de grafos de conocimiento

Características multimodales

Razonamiento cruzado de modalidades

Importancia de la modalidad

Comprensión semántica

Entrenamiento adversarial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La finalización de grafos de conocimiento multimodal (MMKGC) tiene como objetivo completar grafos de conocimiento integrando información estructural con características multimodales (por ejemplo, visuales, textuales y numéricas) y aprovechando el razonamiento cruzado dentro de un espacio semántico unificado para inferir y complementar el conocimiento factual faltante. Los métodos actuales de MMKGC han avanzado en términos de integración de información multimodal, pero han pasado por alto el desequilibrio en la importancia de las modalidades para las entidades objetivo. Tratar todas las modalidades por igual diluye la semántica crítica y amplifica información irrelevante, lo que a su vez limita la comprensión semántica y el rendimiento predictivo del modelo. Para abordar estas limitaciones, propusimos una red de atención de agregación de información de modalidad con entrenamiento adversarial para la finalización de grafos de conocimiento multimodal (MIAGAT-AT). MIAGAT-AT se centra en modelar jerárquicamente interacciones complejas cruzadas. Al combinar el mecanismo de atención de múltiples cabezas con métodos de proyección específicos de modalidad, captura con precisión las dependencias semánticas globales y ajusta dinámicamente el peso de las incrustaciones de modalidad según la importancia de cada modalidad, optimizando así las capacidades de fusión de información cruzada. Además, mediante el uso de ruido aleatorio y bloques residuales de múltiples capas, el entrenamiento adversarial genera representaciones de características multimodales de alta calidad, mejorando así de manera efectiva la información de modalidades desequilibradas. Los resultados experimentales demuestran que nuestro enfoque supera significativamente 18 líneas base existentes y establece una sólida línea base de rendimiento en tres conjuntos de datos distintos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro