Mezclando características globales y locales para el reconocimiento de expresiones de cola larga
Autores: Zhou, Jiaxiong; Li, Jian; Yan, Yubo; Wu, Lei; Xu, Hao
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mezclando características globales y locales para el reconocimiento de expresiones de cola larga
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Conjuntos de datos de expresiones faciales
Oclusión de expresiones
Rostros de gran ángulo
Mecanismo de atención
Características globales y locales
Método de balanceo de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los conjuntos de datos de expresiones faciales a gran escala están compuestos principalmente por expresiones faciales del mundo real. La oclusión de expresiones y los rostros en ángulos grandes son dos problemas importantes que afectan la precisión del reconocimiento de expresiones. Además, dado que los datos de expresiones faciales en escenas naturales comúnmente siguen una distribución de cola larga, los modelos entrenados tienden a reconocer las clases mayoritarias mientras que reconocen las clases minoritarias con bajas precisiones. Para mejorar la robustez y precisión de las redes de reconocimiento de expresiones en un entorno no controlado, este artículo propone una estructura de red eficiente basada en un mecanismo de atención que fusiona características globales y locales (AM-FGL). Utilizamos un modelo espacial de canal y redes neuronales convolucionales de características locales para percibir las características globales y locales de la cara humana, respectivamente. Debido a que la distribución de los conjuntos de datos de expresiones de campo de escenas del mundo real comúnmente sigue una distribución de cola larga, donde las expresiones neutras y felices representan las expresiones de cola, un modelo entrenado exhibe baja precisión de reconocimiento para expresiones de cola como el miedo y el asco. CutMix es un nuevo método de mejora de datos propuesto en otros campos; así, basado en el concepto de CutMix, se propone un método simple y efectivo de balanceo de datos (BC-EDB). La idea clave es pegar píxeles clave (alrededor de los ojos, bocas y narices), lo que reduce la influencia del sobreajuste. Nuestro método propuesto se centra más en el reconocimiento de expresiones de cola, expresiones ocluidas y rostros en ángulos grandes, y logramos los resultados más avanzados en occlusion-RAF-DB, 30 pose-RAF-DB y 45 pose-RAF-DB con precisiones del 86.96%, 89.74% y 88.53%.
Descripción
Los conjuntos de datos de expresiones faciales a gran escala están compuestos principalmente por expresiones faciales del mundo real. La oclusión de expresiones y los rostros en ángulos grandes son dos problemas importantes que afectan la precisión del reconocimiento de expresiones. Además, dado que los datos de expresiones faciales en escenas naturales comúnmente siguen una distribución de cola larga, los modelos entrenados tienden a reconocer las clases mayoritarias mientras que reconocen las clases minoritarias con bajas precisiones. Para mejorar la robustez y precisión de las redes de reconocimiento de expresiones en un entorno no controlado, este artículo propone una estructura de red eficiente basada en un mecanismo de atención que fusiona características globales y locales (AM-FGL). Utilizamos un modelo espacial de canal y redes neuronales convolucionales de características locales para percibir las características globales y locales de la cara humana, respectivamente. Debido a que la distribución de los conjuntos de datos de expresiones de campo de escenas del mundo real comúnmente sigue una distribución de cola larga, donde las expresiones neutras y felices representan las expresiones de cola, un modelo entrenado exhibe baja precisión de reconocimiento para expresiones de cola como el miedo y el asco. CutMix es un nuevo método de mejora de datos propuesto en otros campos; así, basado en el concepto de CutMix, se propone un método simple y efectivo de balanceo de datos (BC-EDB). La idea clave es pegar píxeles clave (alrededor de los ojos, bocas y narices), lo que reduce la influencia del sobreajuste. Nuestro método propuesto se centra más en el reconocimiento de expresiones de cola, expresiones ocluidas y rostros en ángulos grandes, y logramos los resultados más avanzados en occlusion-RAF-DB, 30 pose-RAF-DB y 45 pose-RAF-DB con precisiones del 86.96%, 89.74% y 88.53%.