Un codificador neural visual mejorado para la inducción de conjuntos de sinónimos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un codificador neural visual mejorado para la inducción de conjuntos de sinónimos

Autores: Chen, Guang; Feng, Fangxiang; Zhang, Guangwei; Li, Xiaoxu; Li, Ruifan

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Un codificador neural visual mejorado para la inducción de conjuntos de sinónimos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Tarea de inducción de sinónimos

Representación multimodal

Codificador de LUGAR

Información visual

Representaciones textuales

Algoritmos de agrupamiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones

La tarea de inducción de sinónimos es agrupar automáticamente instancias semánticamente idénticas, que a menudo están representadas por textos e imágenes. Los trabajos anteriores principalmente consideran las partes textuales, mientras ignoran los contrapartes visuales. Sin embargo, cómo emplear efectivamente la información visual para mejorar la representación semántica en la inducción de sinónimos es un desafío. En este documento, proponemos un Codificador NeUral Mejorado Visualmente (es decir, VENUE) para aprender una representación multimodal para la tarea de inducción de sinónimos. La idea clave radica en cómo construir representaciones multimodales a través de interacciones intra-modales e inter-modales entre imágenes y texto. Específicamente, primero diseñamos el módulo de interacción visual a través del mecanismo de atención para capturar la correlación entre imágenes. Para obtener representaciones textuales de múltiples granularidades, fusionamos las etiquetas pre-entrenadas y los embeddings de palabras. En segundo lugar, diseñamos un módulo de enmascaramiento para filtrar la información visual débilmente relevante. En tercer lugar, presentamos un módulo de compuerta para regular adaptativamente las contribuciones de las modalidades a la semántica. Se adopta una pérdida de tripleta para entrenar el codificador VENUE para aprender representaciones multimodales discriminativas. Luego, realizamos algoritmos de agrupamiento en las representaciones obtenidas para inducir conjuntos de sinónimos. Para verificar nuestro enfoque, recopilamos un conjunto de datos multimodal, es decir, MMAI-Synset, y realizamos experimentos extensos. Los resultados experimentales demuestran que nuestro método supera a baselines sólidos en tres grupos de métricas de evaluación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro