logo móvil
Contáctanos

Aprendizaje de múltiples salidas basado en GCN multimodal y co-atención para análisis de estética y emoción de imágenes

Autores: Miao, Haotian; Zhang, Yifei; Wang, Daling; Feng, Shi

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Aprendizaje de múltiples salidas basado en GCN multimodal y co-atención para análisis de estética y emoción de imágenes


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes sociales
Terminales inteligentes
Procesamiento automático de imágenes
Estético
Reconocimiento de emociones
Aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Con el desarrollo de las redes sociales y los terminales inteligentes, se está volviendo más conveniente compartir y adquirir imágenes. El crecimiento masivo del número de imágenes sociales hace que las personas tengan mayores demandas para el procesamiento automático de imágenes, especialmente en la perspectiva estética y emocional. Tanto la evaluación estética como el reconocimiento de emociones requieren una mayor capacidad para que la computadora simule la comprensión de la percepción visual de alto nivel, lo cual pertenece al campo del procesamiento de imágenes y el reconocimiento de patrones. Sin embargo, los métodos existentes a menudo ignoran el conocimiento previo de las imágenes y las relaciones intrínsecas entre las perspectivas estéticas y emocionales. Recientemente, el aprendizaje automático y el aprendizaje profundo se han convertido en métodos poderosos para que los investigadores resuelvan problemas matemáticos en informática, como el procesamiento de imágenes y el reconocimiento de patrones. Tanto las imágenes como los conceptos abstractos pueden convertirse en matrices numéricas y luego establecer las relaciones de mapeo utilizando las matemáticas en las computadoras. En este trabajo, proponemos un modelo de aprendizaje profundo multi-salida de extremo a extremo basado en una Red Convolucional de Grafos (GCN) multimodal y co-atención para el análisis conjunto de la estética y la emoción. En nuestro modelo, se propone una red GCN multimodal apilada para codificar las características bajo la guía de la matriz de correlación, y se diseña un módulo de co-atención para ayudar a que la representación de las características de la estética y la emoción aprendan unas de otras de forma interactiva. Los resultados experimentales indican que nuestro modelo propuesto logra un rendimiento competitivo en el conjunto de datos IAE. Los resultados progresivos en los conjuntos de datos AVA y ArtPhoto también demuestran la capacidad de generalización de nuestro modelo.

Otros recursos que podrían interesarte

Temas Virtualpro