Aprendizaje Profundo para la Predicción de la Belleza Facial
Autores: Cao, Kerang; Choi, Kwang-nam; Jung, Hoekyung; Duan, Lini
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Aprendizaje Profundo para la Predicción de la Belleza Facial
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Predicción de la belleza facial
Métodos de aprendizaje profundo
Redes neuronales convolucionales
Representación de características
Mecanismo de atención
Diseño de red
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La predicción de la belleza facial (FBP) es un tema en auge para la evaluación de la atractividad, que busca hacer que la evaluación sea consistente con la opinión humana. Dado que la FBP es un problema de regresión, para abordar este asunto, existen métodos basados en datos para encontrar las relaciones entre las características faciales y la evaluación de la belleza. Recientemente, los métodos de aprendizaje profundo han mostrado su asombrosa capacidad para la representación y análisis de características. Las redes neuronales convolucionales (CNN) han demostrado un rendimiento tremendo en el reconocimiento y comprensión facial, lo que se ha probado como un método efectivo para la exploración de características faciales. Últimamente, se han investigado redes bien diseñadas con estructuras eficientes para un mejor rendimiento de representación. Sin embargo, estos diseños se concentran en el bloque efectivo pero no construyen un camino de transmisión de información eficiente, lo que llevó a una capacidad subóptima para la representación de características. Además, estos trabajos no pueden encontrar las correlaciones inherentes de los mapas de características, lo que también limita el rendimiento. En este artículo, se propone un diseño de red elaborado para el problema de FBP para un mejor rendimiento. Se introduce una estructura de residual-en-residual (RIR) en la red para permitir que el flujo de gradiente llegue más profundo y construir un mejor camino para la transmisión de información. Al aplicar la estructura RIR, se puede establecer una red más profunda para una mejor representación de características. Además del diseño de la red RIR, se introduce un mecanismo de atención para explotar las correlaciones internas entre las características. Investigamos un bloque de atención conjunta espacial y por canal (SCA) para distribuir la importancia entre las características, lo que encuentra una mejor representación para la información facial. Los resultados experimentales muestran que nuestra red propuesta puede predecir la belleza facial más cerca de la evaluación humana que los métodos más avanzados.
Descripción
La predicción de la belleza facial (FBP) es un tema en auge para la evaluación de la atractividad, que busca hacer que la evaluación sea consistente con la opinión humana. Dado que la FBP es un problema de regresión, para abordar este asunto, existen métodos basados en datos para encontrar las relaciones entre las características faciales y la evaluación de la belleza. Recientemente, los métodos de aprendizaje profundo han mostrado su asombrosa capacidad para la representación y análisis de características. Las redes neuronales convolucionales (CNN) han demostrado un rendimiento tremendo en el reconocimiento y comprensión facial, lo que se ha probado como un método efectivo para la exploración de características faciales. Últimamente, se han investigado redes bien diseñadas con estructuras eficientes para un mejor rendimiento de representación. Sin embargo, estos diseños se concentran en el bloque efectivo pero no construyen un camino de transmisión de información eficiente, lo que llevó a una capacidad subóptima para la representación de características. Además, estos trabajos no pueden encontrar las correlaciones inherentes de los mapas de características, lo que también limita el rendimiento. En este artículo, se propone un diseño de red elaborado para el problema de FBP para un mejor rendimiento. Se introduce una estructura de residual-en-residual (RIR) en la red para permitir que el flujo de gradiente llegue más profundo y construir un mejor camino para la transmisión de información. Al aplicar la estructura RIR, se puede establecer una red más profunda para una mejor representación de características. Además del diseño de la red RIR, se introduce un mecanismo de atención para explotar las correlaciones internas entre las características. Investigamos un bloque de atención conjunta espacial y por canal (SCA) para distribuir la importancia entre las características, lo que encuentra una mejor representación para la información facial. Los resultados experimentales muestran que nuestra red propuesta puede predecir la belleza facial más cerca de la evaluación humana que los métodos más avanzados.