logo móvil
Contáctanos

Un Nuevo Enfoque de Aprendizaje Profundo Ligero para la Detección de la Expresión Facial de los Conductores

Autores: Uddin, Jia

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Un Nuevo Enfoque de Aprendizaje Profundo Ligero para la Detección de la Expresión Facial de los Conductores


Categoría

Procesos industriales

Subcategoría

Diseño de procesos industriales

Palabras clave

Sistemas de reconocimiento de expresiones faciales
Arquitecturas ligeras
Aprendizaje Profundo Ligero de Doble Atención
Arquitectura SqueezeNext
Bloque de Convolución de Doble Atención
Atención Híbrida de Canal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 16

Citaciones: Sin citaciones


Descripción
Los sistemas de reconocimiento de expresiones faciales de los conductores juegan un papel fundamental en los Sistemas Avanzados de Asistencia al Conductor (ADAS) al monitorear estados emocionales y detectar fatiga o distracciones en tiempo real. Sin embargo, implementar tales sistemas en entornos con recursos limitados, como los vehículos, requiere arquitecturas ligeras para garantizar un rendimiento en tiempo real, actualizaciones de modelo eficientes y compatibilidad con hardware embebido. Los modelos más pequeños reducen significativamente la sobrecarga de comunicación en el entrenamiento distribuido. Para los vehículos autónomos, las arquitecturas ligeras también minimizan la transferencia de datos requerida para actualizaciones por aire. Además, son cruciales para su implementación en hardware con memoria limitada en chip. En este trabajo, proponemos un nuevo enfoque de Aprendizaje Profundo Ligero con Doble Atención (DALDL) para el reconocimiento de expresiones faciales de los conductores. El enfoque propuesto combina la arquitectura SqueezeNext con un bloque de Convolución de Doble Atención (DAC). Nuestro bloque DAC integra Atención Híbrida de Canal (HCA) y Atención en Espacio de Coordenadas (CSA) para mejorar la eficiencia de extracción de características mientras se mantiene una sobrecarga de parámetros mínima. Para evaluar la efectividad de nuestra arquitectura, la comparamos con dos líneas base: (a) SqueezeNet Vanilla y (b) AlexNet. En comparación con SqueezeNet, DALDL mejora la precisión en un 7.96% y el F1-score en un 7.95% en el conjunto de datos KMU-FED. En el conjunto de datos CK+, logra una precisión un 8.51% más alta y un F1-score un 8.40% más alto. Frente a AlexNet, DALDL mejora la precisión en un 4.34% y el F1-score en un 4.17% en KMU-FED. Por último, en CK+, proporciona un aumento del 5.36% en precisión y un incremento del 7.24% en el F1-score. Estos resultados demuestran que DALDL es una solución prometedora para el reconocimiento de emociones de manera eficiente y precisa en aplicaciones automotrices del mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro