Predicción estética de imágenes multimodales con modalidad faltante

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Predicción estética de imágenes multimodales con modalidad faltante

Autores: Zhang, Xiaodan; Song, Qiao; Liu, Gang

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Predicción estética de imágenes multimodales con modalidad faltante

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos multimedia

Evaluación estética de imágenes multimodales

Métodos tradicionales

Modalidad textual faltante

Modalidad visual

Mecanismo de autoatención del transformador

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

Con el crecimiento creciente de datos multimedia en Internet, la evaluación estética de imágenes multimodales ha atraído mucha atención en la comunidad de procesamiento de imágenes. Sin embargo, los métodos multimodales tradicionales a menudo tienen los siguientes dos problemas: (1) Los métodos estéticos de imágenes multimodales existentes se basan en la suposición de que todas las modalidades están disponibles en todas las muestras, lo cual es inaplicable en la mayoría de los casos ya que la información textual es más difícil de obtener. (2) Solo fusionan la información multimodal a un solo nivel e ignoran su interacción en diferentes niveles. Para abordar estos dos desafíos, propusimos un marco novedoso denominado redes MMMB (Missing-Modility-Multimodal-Bert). Para lograr la completitud, primero generamos la modalidad textual faltante condicionada a la modalidad visual disponible. Luego proyectamos las características de la imagen al espacio de tokens del texto y utilizamos el mecanismo de autoatención del transformador para hacer que la información de las dos modalidades diferentes interactúen en diferentes niveles para una fusión más temprana y detallada, en lugar de solo en la capa final. Un gran número de experimentos en dos grandes conjuntos de datos de referencia en el campo de la evaluación de calidad estética de imágenes: AVA y Photo.net demuestran que el modelo propuesto mejora significativamente el rendimiento de la evaluación estética de imágenes tanto en la condición de modalidad faltante de texto como en la condición de modalidad completa.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro