Aprendizaje de múltiples salidas basado en GCN multimodal y co-atención para análisis de estética y emoción de imágenes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje de múltiples salidas basado en GCN multimodal y co-atención para análisis de estética y emoción de imágenes

Autores: Miao, Haotian; Zhang, Yifei; Wang, Daling; Feng, Shi

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Aprendizaje de múltiples salidas basado en GCN multimodal y co-atención para análisis de estética y emoción de imágenes

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Redes sociales

Terminales inteligentes

Procesamiento automático de imágenes

Estético

Reconocimiento de emociones

Aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

Con el desarrollo de las redes sociales y los terminales inteligentes, se está volviendo más conveniente compartir y adquirir imágenes. El crecimiento masivo del número de imágenes sociales hace que las personas tengan mayores demandas para el procesamiento automático de imágenes, especialmente en la perspectiva estética y emocional. Tanto la evaluación estética como el reconocimiento de emociones requieren una mayor capacidad para que la computadora simule la comprensión de la percepción visual de alto nivel, lo cual pertenece al campo del procesamiento de imágenes y el reconocimiento de patrones. Sin embargo, los métodos existentes a menudo ignoran el conocimiento previo de las imágenes y las relaciones intrínsecas entre las perspectivas estéticas y emocionales. Recientemente, el aprendizaje automático y el aprendizaje profundo se han convertido en métodos poderosos para que los investigadores resuelvan problemas matemáticos en informática, como el procesamiento de imágenes y el reconocimiento de patrones. Tanto las imágenes como los conceptos abstractos pueden convertirse en matrices numéricas y luego establecer las relaciones de mapeo utilizando las matemáticas en las computadoras. En este trabajo, proponemos un modelo de aprendizaje profundo multi-salida de extremo a extremo basado en una Red Convolucional de Grafos (GCN) multimodal y co-atención para el análisis conjunto de la estética y la emoción. En nuestro modelo, se propone una red GCN multimodal apilada para codificar las características bajo la guía de la matriz de correlación, y se diseña un módulo de co-atención para ayudar a que la representación de las características de la estética y la emoción aprendan unas de otras de forma interactiva. Los resultados experimentales indican que nuestro modelo propuesto logra un rendimiento competitivo en el conjunto de datos IAE. Los resultados progresivos en los conjuntos de datos AVA y ArtPhoto también demuestran la capacidad de generalización de nuestro modelo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro