logo móvil
Contáctanos

MultiDistiller: Detección 3D multimodal eficiente a través de la destilación de conocimiento para drones y vehículos autónomos

Autores: Yang, Binghui; Tao, Tao; Wu, Wenfei; Zhang, Yongjun; Meng, Xiuyuan; Yang, Jianfeng

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

MultiDistiller: Detección 3D multimodal eficiente a través de la destilación de conocimiento para drones y vehículos autónomos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Detección de objetos 3D en tiempo real
Drones
Vehículos autónomos
Fusión multimodal
Destilación de conocimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La detección de objetos 3D en tiempo real es un pilar fundamental para la operación segura de drones y vehículos autónomos (AVs); los drones deben evitar líneas eléctricas de milímetros en un espacio aéreo desordenado, mientras que los AVs requieren un reconocimiento instantáneo de peatones y vehículos en entornos urbanos dinámicos. Aunque se ha avanzado significativamente en los métodos de detección basados en nubes de puntos, cámaras y fusión multimodal, la complejidad computacional de los modelos de alta precisión existentes lucha por cumplir con los requisitos en tiempo real de los dispositivos de borde vehiculares. Además, durante el proceso de aligeramiento del modelo, a menudo surgen problemas como el fallo en el acoplamiento de características multimodales y el desequilibrio entre el rendimiento de clasificación y localización. Para abordar estos desafíos, este documento propone un marco de destilación de conocimiento para la detección de objetos 3D multimodal, incorporando guía de atención, aprendizaje consciente del rango y supervisión interactiva de características para lograr una compresión eficiente del modelo y optimización del rendimiento. Específicamente: Para mejorar la capacidad del modelo estudiante de centrarse en características clave de canal y espaciales, introducimos la destilación de características guiada por atención, aprovechando una máscara de primer plano en vista cenital y un mecanismo de atención dual. Para mitigar la degradación del rendimiento de clasificación al pasar de detectores de dos etapas a detectores de una sola etapa, proponemos la destilación de categoría consciente del rango modelando la distribución a nivel de ancla. Para abordar la insuficiente capacidad de extracción de características cruzadas, mejoramos las características de imagen de la red estudiante utilizando los priors espaciales de nube de puntos de la red docente, construyendo así un mecanismo de alineación de características cruzadas LiDAR-imagen. Los resultados experimentales demuestran la efectividad del enfoque propuesto en la detección de objetos 3D multimodal. En el conjunto de datos KITTI, nuestro método mejora el rendimiento de la red en un 4.89% incluso después de reducir a la mitad el número de canales.

Otros recursos que podrían interesarte

Temas Virtualpro