Ph-cbam: un red híbrida paralela de CBAM con extracción de múltiples características para el reconocimiento de expresiones faciales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Ph-cbam: un red híbrida paralela de CBAM con extracción de múltiples características para el reconocimiento de expresiones faciales

Autores: Liao, Liefa; Wu, Shouluan; Song, Chao; Fu, Jianglong

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Ph-cbam: un red híbrida paralela de CBAM con extracción de múltiples características para el reconocimiento de expresiones faciales

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Redes neuronales convolucionales

Reconocimiento de expresiones faciales

Mecanismos de atención

Modelo de atención híbrido paralelo

Extracción de características

Extracción multimodal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones

Las redes neuronales convolucionales han avanzado significativamente en el reconocimiento de expresiones faciales humanas (FER). Sin embargo, aún enfrentan desafíos para enfocarse y extraer eficazmente rasgos faciales. Investigaciones recientes han recurrido a mecanismos de atención para abordar este problema, centrándose principalmente en detalles de rasgos locales en lugar de rasgos faciales generales. Basándose en el módulo de atención de bloque convolucional clásico (CBAM), este artículo presenta un nuevo Modelo de Atención Híbrido Paralelo, denominado PH-CBAM. Este modelo utiliza atención de canal dividido para mejorar la extracción de rasgos clave manteniendo un recuento mínimo de parámetros. El modelo propuesto permite a la red enfatizar detalles relevantes durante la clasificación de expresiones. El análisis de mapas de calor demuestra que PH-CBAM resalta eficazmente información facial clave. Al emplear un enfoque de extracción multimodal en la fase inicial de extracción de rasgos de imagen, la estructura de la red captura varios rasgos faciales. El algoritmo integra una red residual y la función de activación MISH para crear una red de extracción de múltiples rasgos, abordando problemas como la desaparición del gradiente y el punto cero del gradiente negativo en la transmisión residual. Esto mejora la retención de información valiosa y facilita el flujo de información entre detalles clave de imagen e imágenes objetivo. La evaluación en los conjuntos de datos de referencia FER2013, CK+ y Bigfer2013 arrojó precisión de 68.82%, 97.13% y 72.31%, respectivamente. La comparación con modelos de red convencionales en los conjuntos de datos FER2013 y CK+ demuestra la eficiencia del modelo PH-CBAM, con una precisión comparable a los modelos avanzados actuales, mostrando su efectividad en la detección de emociones.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro