logo móvil
Contáctanos

Un codificador neural visual mejorado para la inducción de conjuntos de sinónimos

Autores: Chen, Guang; Feng, Fangxiang; Zhang, Guangwei; Li, Xiaoxu; Li, Ruifan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un codificador neural visual mejorado para la inducción de conjuntos de sinónimos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Tarea de inducción de sinónimos
Representación multimodal
Codificador de LUGAR
Información visual
Representaciones textuales
Algoritmos de agrupamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
La tarea de inducción de sinónimos es agrupar automáticamente instancias semánticamente idénticas, que a menudo están representadas por textos e imágenes. Los trabajos anteriores principalmente consideran las partes textuales, mientras ignoran los contrapartes visuales. Sin embargo, cómo emplear efectivamente la información visual para mejorar la representación semántica en la inducción de sinónimos es un desafío. En este documento, proponemos un Codificador NeUral Mejorado Visualmente (es decir, VENUE) para aprender una representación multimodal para la tarea de inducción de sinónimos. La idea clave radica en cómo construir representaciones multimodales a través de interacciones intra-modales e inter-modales entre imágenes y texto. Específicamente, primero diseñamos el módulo de interacción visual a través del mecanismo de atención para capturar la correlación entre imágenes. Para obtener representaciones textuales de múltiples granularidades, fusionamos las etiquetas pre-entrenadas y los embeddings de palabras. En segundo lugar, diseñamos un módulo de enmascaramiento para filtrar la información visual débilmente relevante. En tercer lugar, presentamos un módulo de compuerta para regular adaptativamente las contribuciones de las modalidades a la semántica. Se adopta una pérdida de tripleta para entrenar el codificador VENUE para aprender representaciones multimodales discriminativas. Luego, realizamos algoritmos de agrupamiento en las representaciones obtenidas para inducir conjuntos de sinónimos. Para verificar nuestro enfoque, recopilamos un conjunto de datos multimodal, es decir, MMAI-Synset, y realizamos experimentos extensos. Los resultados experimentales demuestran que nuestro método supera a baselines sólidos en tres grupos de métricas de evaluación.

Otros recursos que podrían interesarte

Temas Virtualpro