logo móvil
Contáctanos

Ph-cbam: un red híbrida paralela de CBAM con extracción de múltiples características para el reconocimiento de expresiones faciales

Autores: Liao, Liefa; Wu, Shouluan; Song, Chao; Fu, Jianglong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Ph-cbam: un red híbrida paralela de CBAM con extracción de múltiples características para el reconocimiento de expresiones faciales


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales convolucionales
Reconocimiento de expresiones faciales
Mecanismos de atención
Modelo de atención híbrido paralelo
Extracción de características
Extracción multimodal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
Las redes neuronales convolucionales han avanzado significativamente en el reconocimiento de expresiones faciales humanas (FER). Sin embargo, aún enfrentan desafíos para enfocarse y extraer eficazmente rasgos faciales. Investigaciones recientes han recurrido a mecanismos de atención para abordar este problema, centrándose principalmente en detalles de rasgos locales en lugar de rasgos faciales generales. Basándose en el módulo de atención de bloque convolucional clásico (CBAM), este artículo presenta un nuevo Modelo de Atención Híbrido Paralelo, denominado PH-CBAM. Este modelo utiliza atención de canal dividido para mejorar la extracción de rasgos clave manteniendo un recuento mínimo de parámetros. El modelo propuesto permite a la red enfatizar detalles relevantes durante la clasificación de expresiones. El análisis de mapas de calor demuestra que PH-CBAM resalta eficazmente información facial clave. Al emplear un enfoque de extracción multimodal en la fase inicial de extracción de rasgos de imagen, la estructura de la red captura varios rasgos faciales. El algoritmo integra una red residual y la función de activación MISH para crear una red de extracción de múltiples rasgos, abordando problemas como la desaparición del gradiente y el punto cero del gradiente negativo en la transmisión residual. Esto mejora la retención de información valiosa y facilita el flujo de información entre detalles clave de imagen e imágenes objetivo. La evaluación en los conjuntos de datos de referencia FER2013, CK+ y Bigfer2013 arrojó precisión de 68.82%, 97.13% y 72.31%, respectivamente. La comparación con modelos de red convencionales en los conjuntos de datos FER2013 y CK+ demuestra la eficiencia del modelo PH-CBAM, con una precisión comparable a los modelos avanzados actuales, mostrando su efectividad en la detección de emociones.

Otros recursos que podrían interesarte

Temas Virtualpro