Predicción estética de imágenes multimodales con modalidad faltante
Autores: Zhang, Xiaodan; Song, Qiao; Liu, Gang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Predicción estética de imágenes multimodales con modalidad faltante
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos multimedia
Evaluación estética de imágenes multimodales
Métodos tradicionales
Modalidad textual faltante
Modalidad visual
Mecanismo de autoatención del transformador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
Con el crecimiento creciente de datos multimedia en Internet, la evaluación estética de imágenes multimodales ha atraído mucha atención en la comunidad de procesamiento de imágenes. Sin embargo, los métodos multimodales tradicionales a menudo tienen los siguientes dos problemas: (1) Los métodos estéticos de imágenes multimodales existentes se basan en la suposición de que todas las modalidades están disponibles en todas las muestras, lo cual es inaplicable en la mayoría de los casos ya que la información textual es más difícil de obtener. (2) Solo fusionan la información multimodal a un solo nivel e ignoran su interacción en diferentes niveles. Para abordar estos dos desafíos, propusimos un marco novedoso denominado redes MMMB (Missing-Modility-Multimodal-Bert). Para lograr la completitud, primero generamos la modalidad textual faltante condicionada a la modalidad visual disponible. Luego proyectamos las características de la imagen al espacio de tokens del texto y utilizamos el mecanismo de autoatención del transformador para hacer que la información de las dos modalidades diferentes interactúen en diferentes niveles para una fusión más temprana y detallada, en lugar de solo en la capa final. Un gran número de experimentos en dos grandes conjuntos de datos de referencia en el campo de la evaluación de calidad estética de imágenes: AVA y Photo.net demuestran que el modelo propuesto mejora significativamente el rendimiento de la evaluación estética de imágenes tanto en la condición de modalidad faltante de texto como en la condición de modalidad completa.
Descripción
Con el crecimiento creciente de datos multimedia en Internet, la evaluación estética de imágenes multimodales ha atraído mucha atención en la comunidad de procesamiento de imágenes. Sin embargo, los métodos multimodales tradicionales a menudo tienen los siguientes dos problemas: (1) Los métodos estéticos de imágenes multimodales existentes se basan en la suposición de que todas las modalidades están disponibles en todas las muestras, lo cual es inaplicable en la mayoría de los casos ya que la información textual es más difícil de obtener. (2) Solo fusionan la información multimodal a un solo nivel e ignoran su interacción en diferentes niveles. Para abordar estos dos desafíos, propusimos un marco novedoso denominado redes MMMB (Missing-Modility-Multimodal-Bert). Para lograr la completitud, primero generamos la modalidad textual faltante condicionada a la modalidad visual disponible. Luego proyectamos las características de la imagen al espacio de tokens del texto y utilizamos el mecanismo de autoatención del transformador para hacer que la información de las dos modalidades diferentes interactúen en diferentes niveles para una fusión más temprana y detallada, en lugar de solo en la capa final. Un gran número de experimentos en dos grandes conjuntos de datos de referencia en el campo de la evaluación de calidad estética de imágenes: AVA y Photo.net demuestran que el modelo propuesto mejora significativamente el rendimiento de la evaluación estética de imágenes tanto en la condición de modalidad faltante de texto como en la condición de modalidad completa.