Ph-cbam: un red híbrida paralela de CBAM con extracción de múltiples características para el reconocimiento de expresiones faciales
Autores: Liao, Liefa; Wu, Shouluan; Song, Chao; Fu, Jianglong
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Ph-cbam: un red híbrida paralela de CBAM con extracción de múltiples características para el reconocimiento de expresiones faciales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Redes neuronales convolucionales
Reconocimiento de expresiones faciales
Mecanismos de atención
Modelo de atención híbrido paralelo
Extracción de características
Extracción multimodal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
Las redes neuronales convolucionales han avanzado significativamente en el reconocimiento de expresiones faciales humanas (FER). Sin embargo, aún enfrentan desafíos para enfocarse y extraer eficazmente rasgos faciales. Investigaciones recientes han recurrido a mecanismos de atención para abordar este problema, centrándose principalmente en detalles de rasgos locales en lugar de rasgos faciales generales. Basándose en el módulo de atención de bloque convolucional clásico (CBAM), este artículo presenta un nuevo Modelo de Atención Híbrido Paralelo, denominado PH-CBAM. Este modelo utiliza atención de canal dividido para mejorar la extracción de rasgos clave manteniendo un recuento mínimo de parámetros. El modelo propuesto permite a la red enfatizar detalles relevantes durante la clasificación de expresiones. El análisis de mapas de calor demuestra que PH-CBAM resalta eficazmente información facial clave. Al emplear un enfoque de extracción multimodal en la fase inicial de extracción de rasgos de imagen, la estructura de la red captura varios rasgos faciales. El algoritmo integra una red residual y la función de activación MISH para crear una red de extracción de múltiples rasgos, abordando problemas como la desaparición del gradiente y el punto cero del gradiente negativo en la transmisión residual. Esto mejora la retención de información valiosa y facilita el flujo de información entre detalles clave de imagen e imágenes objetivo. La evaluación en los conjuntos de datos de referencia FER2013, CK+ y Bigfer2013 arrojó precisión de 68.82%, 97.13% y 72.31%, respectivamente. La comparación con modelos de red convencionales en los conjuntos de datos FER2013 y CK+ demuestra la eficiencia del modelo PH-CBAM, con una precisión comparable a los modelos avanzados actuales, mostrando su efectividad en la detección de emociones.
Descripción
Las redes neuronales convolucionales han avanzado significativamente en el reconocimiento de expresiones faciales humanas (FER). Sin embargo, aún enfrentan desafíos para enfocarse y extraer eficazmente rasgos faciales. Investigaciones recientes han recurrido a mecanismos de atención para abordar este problema, centrándose principalmente en detalles de rasgos locales en lugar de rasgos faciales generales. Basándose en el módulo de atención de bloque convolucional clásico (CBAM), este artículo presenta un nuevo Modelo de Atención Híbrido Paralelo, denominado PH-CBAM. Este modelo utiliza atención de canal dividido para mejorar la extracción de rasgos clave manteniendo un recuento mínimo de parámetros. El modelo propuesto permite a la red enfatizar detalles relevantes durante la clasificación de expresiones. El análisis de mapas de calor demuestra que PH-CBAM resalta eficazmente información facial clave. Al emplear un enfoque de extracción multimodal en la fase inicial de extracción de rasgos de imagen, la estructura de la red captura varios rasgos faciales. El algoritmo integra una red residual y la función de activación MISH para crear una red de extracción de múltiples rasgos, abordando problemas como la desaparición del gradiente y el punto cero del gradiente negativo en la transmisión residual. Esto mejora la retención de información valiosa y facilita el flujo de información entre detalles clave de imagen e imágenes objetivo. La evaluación en los conjuntos de datos de referencia FER2013, CK+ y Bigfer2013 arrojó precisión de 68.82%, 97.13% y 72.31%, respectivamente. La comparación con modelos de red convencionales en los conjuntos de datos FER2013 y CK+ demuestra la eficiencia del modelo PH-CBAM, con una precisión comparable a los modelos avanzados actuales, mostrando su efectividad en la detección de emociones.