Cae-net: red de mejora de atención cruzada para la detección de objetos salientes RGB-T
Autores: Lv, Chengtao; Wan, Bin; Zhou, Xiaofei; Sun, Yaoqi; Hu, Ji; Zhang, Jiyong; Yan, Chenggang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Cae-net: red de mejora de atención cruzada para la detección de objetos salientes RGB-T
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Imagen infrarroja térmica
SOD RGB-T
Red de mejora de atención cruz-modal
Fusión cruz-modal
Fusión de múltiples flujos
Objetos salientes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
La detección de objetos salientes (SOD) en RGB funciona mal en escenas de bajo contraste y fondo complejo. Afortunadamente, la imagen infrarroja térmica puede capturar la distribución de calor de las escenas como información complementaria a la imagen RGB, por lo que la SOD RGB-T ha atraído cada vez más atención recientemente. Muchos investigadores se han comprometido a acelerar el desarrollo de la SOD RGB-T, pero aún quedan algunos problemas por resolver. Por ejemplo, la muestra defectuosa y la información interferente contenida en la imagen RGB o térmica dificultan que el modelo aprenda características de saliencia adecuadas, mientras que las características de bajo nivel con información ruidosa resultan en objetos salientes incompletos o detección de falsos positivos. Para resolver estos problemas, diseñamos una red de mejora de atención cruzada (CAE-Net). Primero, diseñamos concretamente un módulo de fusión cruzada (CMF) para fusionar características cruzadas, donde se emplea la unidad de atención cruzada (CAU) para mejorar las dos características modales, y se utiliza la atención de canal para pesar y fusionar dinámicamente las dos características modales. Luego, diseñamos el decodificador de modalidad conjunta (JMD) para fusionar características de nivel cruzado, donde las características de bajo nivel son purificadas por características de nivel superior, y las características multinivel se integran suficientemente. Además, agregamos dos ramas de decodificador de modalidad única (SMD) para preservar más información específica de la modalidad. Finalmente, empleamos un módulo de fusión de múltiples flujos (MSF) para fusionar las características de los tres decodificadores. Se realizan experimentos exhaustivos en tres conjuntos de datos RGB-T, y los resultados muestran que nuestro CAE-Net es comparable a los otros métodos.
Descripción
La detección de objetos salientes (SOD) en RGB funciona mal en escenas de bajo contraste y fondo complejo. Afortunadamente, la imagen infrarroja térmica puede capturar la distribución de calor de las escenas como información complementaria a la imagen RGB, por lo que la SOD RGB-T ha atraído cada vez más atención recientemente. Muchos investigadores se han comprometido a acelerar el desarrollo de la SOD RGB-T, pero aún quedan algunos problemas por resolver. Por ejemplo, la muestra defectuosa y la información interferente contenida en la imagen RGB o térmica dificultan que el modelo aprenda características de saliencia adecuadas, mientras que las características de bajo nivel con información ruidosa resultan en objetos salientes incompletos o detección de falsos positivos. Para resolver estos problemas, diseñamos una red de mejora de atención cruzada (CAE-Net). Primero, diseñamos concretamente un módulo de fusión cruzada (CMF) para fusionar características cruzadas, donde se emplea la unidad de atención cruzada (CAU) para mejorar las dos características modales, y se utiliza la atención de canal para pesar y fusionar dinámicamente las dos características modales. Luego, diseñamos el decodificador de modalidad conjunta (JMD) para fusionar características de nivel cruzado, donde las características de bajo nivel son purificadas por características de nivel superior, y las características multinivel se integran suficientemente. Además, agregamos dos ramas de decodificador de modalidad única (SMD) para preservar más información específica de la modalidad. Finalmente, empleamos un módulo de fusión de múltiples flujos (MSF) para fusionar las características de los tres decodificadores. Se realizan experimentos exhaustivos en tres conjuntos de datos RGB-T, y los resultados muestran que nuestro CAE-Net es comparable a los otros métodos.