MultiDistiller: Detección 3D multimodal eficiente a través de la destilación de conocimiento para drones y vehículos autónomos
Autores: Yang, Binghui; Tao, Tao; Wu, Wenfei; Zhang, Yongjun; Meng, Xiuyuan; Yang, Jianfeng
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
MultiDistiller: Detección 3D multimodal eficiente a través de la destilación de conocimiento para drones y vehículos autónomos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Detección de objetos 3D en tiempo real
Drones
Vehículos autónomos
Fusión multimodal
Destilación de conocimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de objetos 3D en tiempo real es un pilar fundamental para la operación segura de drones y vehículos autónomos (AVs); los drones deben evitar líneas eléctricas de milímetros en un espacio aéreo desordenado, mientras que los AVs requieren un reconocimiento instantáneo de peatones y vehículos en entornos urbanos dinámicos. Aunque se ha avanzado significativamente en los métodos de detección basados en nubes de puntos, cámaras y fusión multimodal, la complejidad computacional de los modelos de alta precisión existentes lucha por cumplir con los requisitos en tiempo real de los dispositivos de borde vehiculares. Además, durante el proceso de aligeramiento del modelo, a menudo surgen problemas como el fallo en el acoplamiento de características multimodales y el desequilibrio entre el rendimiento de clasificación y localización. Para abordar estos desafíos, este documento propone un marco de destilación de conocimiento para la detección de objetos 3D multimodal, incorporando guía de atención, aprendizaje consciente del rango y supervisión interactiva de características para lograr una compresión eficiente del modelo y optimización del rendimiento. Específicamente: Para mejorar la capacidad del modelo estudiante de centrarse en características clave de canal y espaciales, introducimos la destilación de características guiada por atención, aprovechando una máscara de primer plano en vista cenital y un mecanismo de atención dual. Para mitigar la degradación del rendimiento de clasificación al pasar de detectores de dos etapas a detectores de una sola etapa, proponemos la destilación de categoría consciente del rango modelando la distribución a nivel de ancla. Para abordar la insuficiente capacidad de extracción de características cruzadas, mejoramos las características de imagen de la red estudiante utilizando los priors espaciales de nube de puntos de la red docente, construyendo así un mecanismo de alineación de características cruzadas LiDAR-imagen. Los resultados experimentales demuestran la efectividad del enfoque propuesto en la detección de objetos 3D multimodal. En el conjunto de datos KITTI, nuestro método mejora el rendimiento de la red en un 4.89% incluso después de reducir a la mitad el número de canales.
Descripción
La detección de objetos 3D en tiempo real es un pilar fundamental para la operación segura de drones y vehículos autónomos (AVs); los drones deben evitar líneas eléctricas de milímetros en un espacio aéreo desordenado, mientras que los AVs requieren un reconocimiento instantáneo de peatones y vehículos en entornos urbanos dinámicos. Aunque se ha avanzado significativamente en los métodos de detección basados en nubes de puntos, cámaras y fusión multimodal, la complejidad computacional de los modelos de alta precisión existentes lucha por cumplir con los requisitos en tiempo real de los dispositivos de borde vehiculares. Además, durante el proceso de aligeramiento del modelo, a menudo surgen problemas como el fallo en el acoplamiento de características multimodales y el desequilibrio entre el rendimiento de clasificación y localización. Para abordar estos desafíos, este documento propone un marco de destilación de conocimiento para la detección de objetos 3D multimodal, incorporando guía de atención, aprendizaje consciente del rango y supervisión interactiva de características para lograr una compresión eficiente del modelo y optimización del rendimiento. Específicamente: Para mejorar la capacidad del modelo estudiante de centrarse en características clave de canal y espaciales, introducimos la destilación de características guiada por atención, aprovechando una máscara de primer plano en vista cenital y un mecanismo de atención dual. Para mitigar la degradación del rendimiento de clasificación al pasar de detectores de dos etapas a detectores de una sola etapa, proponemos la destilación de categoría consciente del rango modelando la distribución a nivel de ancla. Para abordar la insuficiente capacidad de extracción de características cruzadas, mejoramos las características de imagen de la red estudiante utilizando los priors espaciales de nube de puntos de la red docente, construyendo así un mecanismo de alineación de características cruzadas LiDAR-imagen. Los resultados experimentales demuestran la efectividad del enfoque propuesto en la detección de objetos 3D multimodal. En el conjunto de datos KITTI, nuestro método mejora el rendimiento de la red en un 4.89% incluso después de reducir a la mitad el número de canales.