logo móvil
Contáctanos

Adaptación de dominio de día y noche sin disparo cero para la detección de rostros basada en DAl-CLIP-Dino

Autores: Sun, Huadong; Liu, Yinghui; Chen, Ziyang; Zhang, Pengyi

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Adaptación de dominio de día y noche sin disparo cero para la detección de rostros basada en DAl-CLIP-Dino


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Desafíos
Visión por computadora
Detección de rostros
Entornos con poca luz
Detección de objetos
Rendimiento del modelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
Dos desafíos en visión por computadora (CV) relacionados con la detección de rostros son la dificultad de adquisición en el dominio objetivo y la degradación de la calidad de la imagen. Especialmente en situaciones de poca luz, la mala visibilidad de las imágenes es difícil de etiquetar, lo que resulta en detectores entrenados bajo condiciones bien iluminadas que exhiben un rendimiento reducido en entornos de poca luz. Los trabajos convencionales de mejora de imagen y técnicas de detección de objetos no pueden resolver las dificultades inherentes en la recopilación y etiquetado de imágenes de poca luz. Se propone la Red Iluminada Oscura con Preentrenamiento Contrastivo Lenguaje-Imagen (CLIP) y Transformador de Visión Auto-Supervisado (Dino), abreviado como DAl-CLIP-Dino para abordar la degradación del rendimiento de detección de objetos en entornos de poca luz y lograr una adaptación de dominio día-noche sin necesidad de entrenamiento. Específicamente, se emplea un módulo avanzado de aprendizaje de representación de reflectancia (que aprovecha la descomposición de Retinex para extraer características de reflectancia e iluminación de imágenes tanto de poca luz como bien iluminadas) y un proceso de coherencia de intercambio-redecomposición (que realiza una segunda descomposición en imágenes reconstruidas después del intercambio para generar una segunda ronda de predicciones de reflectancia e iluminación mientras valida su consistencia utilizando pérdida de consistencia de redecomposición) para lograr invarianza a la iluminación y mejorar el rendimiento del modelo. CLIP (parte codificadora de imagen basada en VIT) y Dino se han integrado para la extracción de características, mejorando el rendimiento bajo condiciones de iluminación extrema y mejorando su capacidad de generalización. Nuestro modelo logra una precisión media promedio (mAP) para la detección de rostros en el conjunto de datos DARK FACE, superando a otros modelos en adaptación de dominio sin necesidad de entrenamiento para la detección de rostros.

Otros recursos que podrían interesarte

Temas Virtualpro