Un detector de rostros ligero a través de una red neuronal convolucional de bi-corriente y un transformador de visión

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un detector de rostros ligero a través de una red neuronal convolucional de bi-corriente y un transformador de visión

Autores: Zhang, Zekun; Chao, Qingqing; Wang, Shijie; Yu, Teng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Un detector de rostros ligero a través de una red neuronal convolucional de bi-corriente y un transformador de visión

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Redes neuronales convolucionales

Detección de rostros

Modelos basados en transformadores

Representaciones globales

Patrones locales

Mejora de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Las redes neuronales convolucionales ligeras se utilizan ampliamente para la detección de rostros debido a su capacidad para aprender representaciones locales a través de un sesgo de inducción espacial y la invariancia translacional. Sin embargo, los detectores de rostros convolucionales tienen limitaciones para detectar rostros en condiciones desafiantes como oclusión, desenfoque o cambios en las poses faciales, principalmente atribuidas a campos receptivos de tamaño fijo y a la falta de modelado global. Los modelos basados en transformadores tienen ventajas en el aprendizaje de representaciones globales, pero son insensibles para capturar patrones locales. Para abordar estas limitaciones, proponemos un detector de rostros eficiente que combina arquitecturas de redes neuronales convolucionales y transformadores. Introducimos una estructura de bi-stream que integra bloques de redes neuronales convolucionales y transformadores dentro de la red de backbone, lo que permite la preservación de características de patrones locales y la extracción de contexto global. Para preservar aún más los detalles locales capturados por las redes neuronales convolucionales, proponemos un bloque de convolución de mejora de características en una estructura de backbone jerárquica. Además, diseñamos un módulo de agregación de características multiescala para mejorar las características faciales ocultas y desenfocadas. Los resultados experimentales demuestran que nuestro método ha logrado una mayor precisión en la detección de rostros ligeros con una precisión promedio del 95.30%, 94.20% y 87.56% en los subconjuntos fácil, medio y difícil de WIDER FACE, respectivamente. Por lo tanto, creemos que nuestro método será un complemento útil para la colección de modelos actuales de inteligencia artificial y beneficiará las aplicaciones de ingeniería de detección de rostros.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro