Un detector de rostros ligero a través de una red neuronal convolucional de bi-corriente y un transformador de visión
Autores: Zhang, Zekun; Chao, Qingqing; Wang, Shijie; Yu, Teng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un detector de rostros ligero a través de una red neuronal convolucional de bi-corriente y un transformador de visión
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Redes neuronales convolucionales
Detección de rostros
Modelos basados en transformadores
Representaciones globales
Patrones locales
Mejora de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las redes neuronales convolucionales ligeras se utilizan ampliamente para la detección de rostros debido a su capacidad para aprender representaciones locales a través de un sesgo de inducción espacial y la invariancia translacional. Sin embargo, los detectores de rostros convolucionales tienen limitaciones para detectar rostros en condiciones desafiantes como oclusión, desenfoque o cambios en las poses faciales, principalmente atribuidas a campos receptivos de tamaño fijo y a la falta de modelado global. Los modelos basados en transformadores tienen ventajas en el aprendizaje de representaciones globales, pero son insensibles para capturar patrones locales. Para abordar estas limitaciones, proponemos un detector de rostros eficiente que combina arquitecturas de redes neuronales convolucionales y transformadores. Introducimos una estructura de bi-stream que integra bloques de redes neuronales convolucionales y transformadores dentro de la red de backbone, lo que permite la preservación de características de patrones locales y la extracción de contexto global. Para preservar aún más los detalles locales capturados por las redes neuronales convolucionales, proponemos un bloque de convolución de mejora de características en una estructura de backbone jerárquica. Además, diseñamos un módulo de agregación de características multiescala para mejorar las características faciales ocultas y desenfocadas. Los resultados experimentales demuestran que nuestro método ha logrado una mayor precisión en la detección de rostros ligeros con una precisión promedio del 95.30%, 94.20% y 87.56% en los subconjuntos fácil, medio y difícil de WIDER FACE, respectivamente. Por lo tanto, creemos que nuestro método será un complemento útil para la colección de modelos actuales de inteligencia artificial y beneficiará las aplicaciones de ingeniería de detección de rostros.
Descripción
Las redes neuronales convolucionales ligeras se utilizan ampliamente para la detección de rostros debido a su capacidad para aprender representaciones locales a través de un sesgo de inducción espacial y la invariancia translacional. Sin embargo, los detectores de rostros convolucionales tienen limitaciones para detectar rostros en condiciones desafiantes como oclusión, desenfoque o cambios en las poses faciales, principalmente atribuidas a campos receptivos de tamaño fijo y a la falta de modelado global. Los modelos basados en transformadores tienen ventajas en el aprendizaje de representaciones globales, pero son insensibles para capturar patrones locales. Para abordar estas limitaciones, proponemos un detector de rostros eficiente que combina arquitecturas de redes neuronales convolucionales y transformadores. Introducimos una estructura de bi-stream que integra bloques de redes neuronales convolucionales y transformadores dentro de la red de backbone, lo que permite la preservación de características de patrones locales y la extracción de contexto global. Para preservar aún más los detalles locales capturados por las redes neuronales convolucionales, proponemos un bloque de convolución de mejora de características en una estructura de backbone jerárquica. Además, diseñamos un módulo de agregación de características multiescala para mejorar las características faciales ocultas y desenfocadas. Los resultados experimentales demuestran que nuestro método ha logrado una mayor precisión en la detección de rostros ligeros con una precisión promedio del 95.30%, 94.20% y 87.56% en los subconjuntos fácil, medio y difícil de WIDER FACE, respectivamente. Por lo tanto, creemos que nuestro método será un complemento útil para la colección de modelos actuales de inteligencia artificial y beneficiará las aplicaciones de ingeniería de detección de rostros.