Procesamiento de característica de purificación de calidad de profundidad para detección de objetos salientes en rojo verde azul-profundo
Autores: Feng, Shijie; Zhao, Li; Hu, Jie; Zhou, Xiaolong; Chan, Sixian
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Procesamiento de característica de purificación de calidad de profundidad para detección de objetos salientes en rojo verde azul-profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Avances en tecnología de aprendizaje profundo
Detección de Objetos Salientes RGB-D
Redes neuronales convolucionales
Características de profundidad
DQPFPNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 41
Citaciones: Sin citaciones
Con los avances en la tecnología de aprendizaje profundo, la Detección de Objetos Salientes (SOD) Rojo Verde Azul-Profundidad (RGB-D) basada en redes neuronales convolucionales (CNN) está ganando cada vez más atención. Sin embargo, la precisión de los modelos actuales es desafiante. Se ha descubierto que la calidad de las características de profundidad afecta profundamente la precisión. Varios técnicas actuales de SOD RGB-D no consideran la calidad de las características de profundidad y fusionan directamente las características de profundidad originales y las características Rojo Verde Azul (RGB) para el entrenamiento, lo que resulta en una precisión mejorada del modelo. Para abordar este problema, proponemos una red de procesamiento de características de purificación de calidad de profundidad para SOD RGB-D, llamada DQPFPNet. Primero, diseñamos un módulo de procesamiento de características de purificación de calidad de profundidad (DQPFP) para filtrar las características de profundidad de manera multi-escala y fusionarlas con características RGB de manera multi-escala. Este módulo puede controlar y mejorar explícitamente las características de profundidad en el proceso de fusión cruzada modal, evitando la inyección de ruido o características de profundidad engañosas. En segundo lugar, para evitar el sobreajuste y evitar la inactivación de neuronas, utilizamos la función de activación RReLU en el proceso de entrenamiento. Además, introducimos la pérdida de importancia adaptativa de posición de píxel (PPAI), que integra información de estructura local para asignar diferentes pesos a cada píxel, guiando así mejor el proceso de aprendizaje de la red y produciendo detalles más claros. Finalmente, se diseña un decodificador de doble etapa para utilizar información contextual para mejorar la capacidad de modelado del modelo y mejorar la eficiencia de la red. Experimentos extensos en seis conjuntos de datos RGB-D demuestran que DQPFPNet supera a los modelos eficientes recientes y ofrece una precisión de vanguardia.
Descripción
Con los avances en la tecnología de aprendizaje profundo, la Detección de Objetos Salientes (SOD) Rojo Verde Azul-Profundidad (RGB-D) basada en redes neuronales convolucionales (CNN) está ganando cada vez más atención. Sin embargo, la precisión de los modelos actuales es desafiante. Se ha descubierto que la calidad de las características de profundidad afecta profundamente la precisión. Varios técnicas actuales de SOD RGB-D no consideran la calidad de las características de profundidad y fusionan directamente las características de profundidad originales y las características Rojo Verde Azul (RGB) para el entrenamiento, lo que resulta en una precisión mejorada del modelo. Para abordar este problema, proponemos una red de procesamiento de características de purificación de calidad de profundidad para SOD RGB-D, llamada DQPFPNet. Primero, diseñamos un módulo de procesamiento de características de purificación de calidad de profundidad (DQPFP) para filtrar las características de profundidad de manera multi-escala y fusionarlas con características RGB de manera multi-escala. Este módulo puede controlar y mejorar explícitamente las características de profundidad en el proceso de fusión cruzada modal, evitando la inyección de ruido o características de profundidad engañosas. En segundo lugar, para evitar el sobreajuste y evitar la inactivación de neuronas, utilizamos la función de activación RReLU en el proceso de entrenamiento. Además, introducimos la pérdida de importancia adaptativa de posición de píxel (PPAI), que integra información de estructura local para asignar diferentes pesos a cada píxel, guiando así mejor el proceso de aprendizaje de la red y produciendo detalles más claros. Finalmente, se diseña un decodificador de doble etapa para utilizar información contextual para mejorar la capacidad de modelado del modelo y mejorar la eficiencia de la red. Experimentos extensos en seis conjuntos de datos RGB-D demuestran que DQPFPNet supera a los modelos eficientes recientes y ofrece una precisión de vanguardia.