logo móvil
Contáctanos

Cae-net: red de mejora de atención cruzada para la detección de objetos salientes RGB-T

Autores: Lv, Chengtao; Wan, Bin; Zhou, Xiaofei; Sun, Yaoqi; Hu, Ji; Zhang, Jiyong; Yan, Chenggang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Cae-net: red de mejora de atención cruzada para la detección de objetos salientes RGB-T


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Imagen infrarroja térmica
SOD RGB-T
Red de mejora de atención cruz-modal
Fusión cruz-modal
Fusión de múltiples flujos
Objetos salientes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
La detección de objetos salientes (SOD) en RGB funciona mal en escenas de bajo contraste y fondo complejo. Afortunadamente, la imagen infrarroja térmica puede capturar la distribución de calor de las escenas como información complementaria a la imagen RGB, por lo que la SOD RGB-T ha atraído cada vez más atención recientemente. Muchos investigadores se han comprometido a acelerar el desarrollo de la SOD RGB-T, pero aún quedan algunos problemas por resolver. Por ejemplo, la muestra defectuosa y la información interferente contenida en la imagen RGB o térmica dificultan que el modelo aprenda características de saliencia adecuadas, mientras que las características de bajo nivel con información ruidosa resultan en objetos salientes incompletos o detección de falsos positivos. Para resolver estos problemas, diseñamos una red de mejora de atención cruzada (CAE-Net). Primero, diseñamos concretamente un módulo de fusión cruzada (CMF) para fusionar características cruzadas, donde se emplea la unidad de atención cruzada (CAU) para mejorar las dos características modales, y se utiliza la atención de canal para pesar y fusionar dinámicamente las dos características modales. Luego, diseñamos el decodificador de modalidad conjunta (JMD) para fusionar características de nivel cruzado, donde las características de bajo nivel son purificadas por características de nivel superior, y las características multinivel se integran suficientemente. Además, agregamos dos ramas de decodificador de modalidad única (SMD) para preservar más información específica de la modalidad. Finalmente, empleamos un módulo de fusión de múltiples flujos (MSF) para fusionar las características de los tres decodificadores. Se realizan experimentos exhaustivos en tres conjuntos de datos RGB-T, y los resultados muestran que nuestro CAE-Net es comparable a los otros métodos.

Otros recursos que podrían interesarte

Temas Virtualpro