logo móvil
Contáctanos

Predicción estética de imágenes multimodales con modalidad faltante

Autores: Zhang, Xiaodan; Song, Qiao; Liu, Gang

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Predicción estética de imágenes multimodales con modalidad faltante


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos multimedia
Evaluación estética de imágenes multimodales
Métodos tradicionales
Modalidad textual faltante
Modalidad visual
Mecanismo de autoatención del transformador

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
Con el crecimiento creciente de datos multimedia en Internet, la evaluación estética de imágenes multimodales ha atraído mucha atención en la comunidad de procesamiento de imágenes. Sin embargo, los métodos multimodales tradicionales a menudo tienen los siguientes dos problemas: (1) Los métodos estéticos de imágenes multimodales existentes se basan en la suposición de que todas las modalidades están disponibles en todas las muestras, lo cual es inaplicable en la mayoría de los casos ya que la información textual es más difícil de obtener. (2) Solo fusionan la información multimodal a un solo nivel e ignoran su interacción en diferentes niveles. Para abordar estos dos desafíos, propusimos un marco novedoso denominado redes MMMB (Missing-Modility-Multimodal-Bert). Para lograr la completitud, primero generamos la modalidad textual faltante condicionada a la modalidad visual disponible. Luego proyectamos las características de la imagen al espacio de tokens del texto y utilizamos el mecanismo de autoatención del transformador para hacer que la información de las dos modalidades diferentes interactúen en diferentes niveles para una fusión más temprana y detallada, en lugar de solo en la capa final. Un gran número de experimentos en dos grandes conjuntos de datos de referencia en el campo de la evaluación de calidad estética de imágenes: AVA y Photo.net demuestran que el modelo propuesto mejora significativamente el rendimiento de la evaluación estética de imágenes tanto en la condición de modalidad faltante de texto como en la condición de modalidad completa.

Otros recursos que podrían interesarte

Temas Virtualpro