Sistemas de diálogo de infusión multimodal basados en transformadores

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Sistemas de diálogo de infusión multimodal basados en transformadores

Autores: Liu, Bo; He, Lejian; Liu, Yafei; Yu, Tianyao; Xiang, Yuejia; Zhu, Li; Ruan, Weijian

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Sistemas de diálogo de infusión multimodal basados en transformadores

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Avances

Sistemas de diálogo multimodal

Infusión de información

Diálogo de Infusión Multimodal basado en Transformer

Respuestas

Conocimiento de dominio

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

Los recientes avances en sistemas de diálogo multimodal han ido adquiriendo importancia en varios ámbitos como el comercio minorista, los viajes, la moda, entre otros. Varios trabajos existentes han mejorado la comprensión y generación de diálogos multimodales. Sin embargo, todavía existe un espacio considerable para mejorar la calidad de las respuestas textuales de salida debido a la insuficiente infusión de información entre la semántica visual y textual. Además, los sistemas de diálogo existentes a menudo generan respuestas defectuosas basadas en el conocimiento para tareas como proporcionar atributos de productos y respaldos de celebridades. Para abordar los problemas mencionados, presentamos un sistema de Diálogo de Infusión Multimodal basado en Transformer (TMID) que extrae la información visual y textual de los diálogos a través de un codificador de contexto multimodal basado en transformer y emplea un mecanismo de atención cruzada para lograr la infusión de información entre imágenes y textos para cada enunciado. Además, TMID utiliza decodificadores adaptativos para generar respuestas multimodales apropiadas basadas en las intenciones del usuario que ha determinado utilizando un clasificador de estado y enriquece las respuestas de salida incorporando conocimiento del dominio en los decodificadores. Los resultados de experimentos extensos en un conjunto de datos de diálogo multimodal demuestran que TMID ha logrado un rendimiento de vanguardia al mejorar la puntuación BLUE-4 en un 13.03, NIST en un 2.77, y la selección de imágenes Recall@1 en un 1.84%.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro