logo móvil
Contáctanos

Un detector de rostros ligero a través de una red neuronal convolucional de bi-corriente y un transformador de visión

Autores: Zhang, Zekun; Chao, Qingqing; Wang, Shijie; Yu, Teng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un detector de rostros ligero a través de una red neuronal convolucional de bi-corriente y un transformador de visión


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Redes neuronales convolucionales
Detección de rostros
Modelos basados en transformadores
Representaciones globales
Patrones locales
Mejora de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las redes neuronales convolucionales ligeras se utilizan ampliamente para la detección de rostros debido a su capacidad para aprender representaciones locales a través de un sesgo de inducción espacial y la invariancia translacional. Sin embargo, los detectores de rostros convolucionales tienen limitaciones para detectar rostros en condiciones desafiantes como oclusión, desenfoque o cambios en las poses faciales, principalmente atribuidas a campos receptivos de tamaño fijo y a la falta de modelado global. Los modelos basados en transformadores tienen ventajas en el aprendizaje de representaciones globales, pero son insensibles para capturar patrones locales. Para abordar estas limitaciones, proponemos un detector de rostros eficiente que combina arquitecturas de redes neuronales convolucionales y transformadores. Introducimos una estructura de bi-stream que integra bloques de redes neuronales convolucionales y transformadores dentro de la red de backbone, lo que permite la preservación de características de patrones locales y la extracción de contexto global. Para preservar aún más los detalles locales capturados por las redes neuronales convolucionales, proponemos un bloque de convolución de mejora de características en una estructura de backbone jerárquica. Además, diseñamos un módulo de agregación de características multiescala para mejorar las características faciales ocultas y desenfocadas. Los resultados experimentales demuestran que nuestro método ha logrado una mayor precisión en la detección de rostros ligeros con una precisión promedio del 95.30%, 94.20% y 87.56% en los subconjuntos fácil, medio y difícil de WIDER FACE, respectivamente. Por lo tanto, creemos que nuestro método será un complemento útil para la colección de modelos actuales de inteligencia artificial y beneficiará las aplicaciones de ingeniería de detección de rostros.

Otros recursos que podrían interesarte

Temas Virtualpro