Adaptación de dominio de día y noche sin disparo cero para la detección de rostros basada en DAl-CLIP-Dino
Autores: Sun, Huadong; Liu, Yinghui; Chen, Ziyang; Zhang, Pengyi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Adaptación de dominio de día y noche sin disparo cero para la detección de rostros basada en DAl-CLIP-Dino
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Desafíos
Visión por computadora
Detección de rostros
Entornos con poca luz
Detección de objetos
Rendimiento del modelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
Dos desafíos en visión por computadora (CV) relacionados con la detección de rostros son la dificultad de adquisición en el dominio objetivo y la degradación de la calidad de la imagen. Especialmente en situaciones de poca luz, la mala visibilidad de las imágenes es difícil de etiquetar, lo que resulta en detectores entrenados bajo condiciones bien iluminadas que exhiben un rendimiento reducido en entornos de poca luz. Los trabajos convencionales de mejora de imagen y técnicas de detección de objetos no pueden resolver las dificultades inherentes en la recopilación y etiquetado de imágenes de poca luz. Se propone la Red Iluminada Oscura con Preentrenamiento Contrastivo Lenguaje-Imagen (CLIP) y Transformador de Visión Auto-Supervisado (Dino), abreviado como DAl-CLIP-Dino para abordar la degradación del rendimiento de detección de objetos en entornos de poca luz y lograr una adaptación de dominio día-noche sin necesidad de entrenamiento. Específicamente, se emplea un módulo avanzado de aprendizaje de representación de reflectancia (que aprovecha la descomposición de Retinex para extraer características de reflectancia e iluminación de imágenes tanto de poca luz como bien iluminadas) y un proceso de coherencia de intercambio-redecomposición (que realiza una segunda descomposición en imágenes reconstruidas después del intercambio para generar una segunda ronda de predicciones de reflectancia e iluminación mientras valida su consistencia utilizando pérdida de consistencia de redecomposición) para lograr invarianza a la iluminación y mejorar el rendimiento del modelo. CLIP (parte codificadora de imagen basada en VIT) y Dino se han integrado para la extracción de características, mejorando el rendimiento bajo condiciones de iluminación extrema y mejorando su capacidad de generalización. Nuestro modelo logra una precisión media promedio (mAP) para la detección de rostros en el conjunto de datos DARK FACE, superando a otros modelos en adaptación de dominio sin necesidad de entrenamiento para la detección de rostros.
Descripción
Dos desafíos en visión por computadora (CV) relacionados con la detección de rostros son la dificultad de adquisición en el dominio objetivo y la degradación de la calidad de la imagen. Especialmente en situaciones de poca luz, la mala visibilidad de las imágenes es difícil de etiquetar, lo que resulta en detectores entrenados bajo condiciones bien iluminadas que exhiben un rendimiento reducido en entornos de poca luz. Los trabajos convencionales de mejora de imagen y técnicas de detección de objetos no pueden resolver las dificultades inherentes en la recopilación y etiquetado de imágenes de poca luz. Se propone la Red Iluminada Oscura con Preentrenamiento Contrastivo Lenguaje-Imagen (CLIP) y Transformador de Visión Auto-Supervisado (Dino), abreviado como DAl-CLIP-Dino para abordar la degradación del rendimiento de detección de objetos en entornos de poca luz y lograr una adaptación de dominio día-noche sin necesidad de entrenamiento. Específicamente, se emplea un módulo avanzado de aprendizaje de representación de reflectancia (que aprovecha la descomposición de Retinex para extraer características de reflectancia e iluminación de imágenes tanto de poca luz como bien iluminadas) y un proceso de coherencia de intercambio-redecomposición (que realiza una segunda descomposición en imágenes reconstruidas después del intercambio para generar una segunda ronda de predicciones de reflectancia e iluminación mientras valida su consistencia utilizando pérdida de consistencia de redecomposición) para lograr invarianza a la iluminación y mejorar el rendimiento del modelo. CLIP (parte codificadora de imagen basada en VIT) y Dino se han integrado para la extracción de características, mejorando el rendimiento bajo condiciones de iluminación extrema y mejorando su capacidad de generalización. Nuestro modelo logra una precisión media promedio (mAP) para la detección de rostros en el conjunto de datos DARK FACE, superando a otros modelos en adaptación de dominio sin necesidad de entrenamiento para la detección de rostros.