Sistemas de diálogo de infusión multimodal basados en transformadores
Autores: Liu, Bo; He, Lejian; Liu, Yafei; Yu, Tianyao; Xiang, Yuejia; Zhu, Li; Ruan, Weijian
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Sistemas de diálogo de infusión multimodal basados en transformadores
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Avances
Sistemas de diálogo multimodal
Infusión de información
Diálogo de Infusión Multimodal basado en Transformer
Respuestas
Conocimiento de dominio
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Los recientes avances en sistemas de diálogo multimodal han ido adquiriendo importancia en varios ámbitos como el comercio minorista, los viajes, la moda, entre otros. Varios trabajos existentes han mejorado la comprensión y generación de diálogos multimodales. Sin embargo, todavía existe un espacio considerable para mejorar la calidad de las respuestas textuales de salida debido a la insuficiente infusión de información entre la semántica visual y textual. Además, los sistemas de diálogo existentes a menudo generan respuestas defectuosas basadas en el conocimiento para tareas como proporcionar atributos de productos y respaldos de celebridades. Para abordar los problemas mencionados, presentamos un sistema de Diálogo de Infusión Multimodal basado en Transformer (TMID) que extrae la información visual y textual de los diálogos a través de un codificador de contexto multimodal basado en transformer y emplea un mecanismo de atención cruzada para lograr la infusión de información entre imágenes y textos para cada enunciado. Además, TMID utiliza decodificadores adaptativos para generar respuestas multimodales apropiadas basadas en las intenciones del usuario que ha determinado utilizando un clasificador de estado y enriquece las respuestas de salida incorporando conocimiento del dominio en los decodificadores. Los resultados de experimentos extensos en un conjunto de datos de diálogo multimodal demuestran que TMID ha logrado un rendimiento de vanguardia al mejorar la puntuación BLUE-4 en un 13.03, NIST en un 2.77, y la selección de imágenes Recall@1 en un 1.84%.
Descripción
Los recientes avances en sistemas de diálogo multimodal han ido adquiriendo importancia en varios ámbitos como el comercio minorista, los viajes, la moda, entre otros. Varios trabajos existentes han mejorado la comprensión y generación de diálogos multimodales. Sin embargo, todavía existe un espacio considerable para mejorar la calidad de las respuestas textuales de salida debido a la insuficiente infusión de información entre la semántica visual y textual. Además, los sistemas de diálogo existentes a menudo generan respuestas defectuosas basadas en el conocimiento para tareas como proporcionar atributos de productos y respaldos de celebridades. Para abordar los problemas mencionados, presentamos un sistema de Diálogo de Infusión Multimodal basado en Transformer (TMID) que extrae la información visual y textual de los diálogos a través de un codificador de contexto multimodal basado en transformer y emplea un mecanismo de atención cruzada para lograr la infusión de información entre imágenes y textos para cada enunciado. Además, TMID utiliza decodificadores adaptativos para generar respuestas multimodales apropiadas basadas en las intenciones del usuario que ha determinado utilizando un clasificador de estado y enriquece las respuestas de salida incorporando conocimiento del dominio en los decodificadores. Los resultados de experimentos extensos en un conjunto de datos de diálogo multimodal demuestran que TMID ha logrado un rendimiento de vanguardia al mejorar la puntuación BLUE-4 en un 13.03, NIST en un 2.77, y la selección de imágenes Recall@1 en un 1.84%.