Instancia de segmentación Frustum-PointPillars: un algoritmo de fusión ligero para percepción de cámara-LiDAR en conducción autónoma
Autores: Wang, Yongsheng; Han, Xiaobo; Wei, Xiaoxu; Luo, Jie
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Instancia de segmentación Frustum-PointPillars: un algoritmo de fusión ligero para percepción de cámara-LiDAR en conducción autónoma
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Fusión
LiDAR
Percepción
Conducción autónoma
Segmentación de instancias Frustum
PointPillars
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
La fusión de la percepción de cámara y LiDAR se ha convertido en un punto focal de investigación en el campo de la conducción autónoma. Los algoritmos de fusión de imagen-nube de puntos LiDAR existentes son excesivamente complejos, y el procesamiento de grandes cantidades de datos de nube de puntos LiDAR 3D requiere una alta potencia computacional, lo que plantea desafíos para aplicaciones prácticas. Para superar los problemas mencionados, proponemos un método de Segmentación de Instancias Frustum (ISF)-PointPillars. Dentro del marco de nuestro método, los datos de entrada se derivan tanto de una cámara como de LiDAR. Las imágenes RGB se procesan utilizando una red mejorada de detección de objetos 2D basada en YOLOv8, lo que produce cajas delimitadoras rectangulares y contornos de borde de los objetos presentes en las escenas. Posteriormente, las cajas rectangulares se extienden al espacio 3D como frustums, y se eliminan los puntos 3D ubicados fuera de ellos. Luego, los contornos de borde 2D también se extienden a frustums para filtrar los puntos restantes de la etapa anterior. Finalmente, los puntos retenidos se envían a nuestra red mejorada de detección de objetos 3D basada en PointPillars, y esta red infiere información crucial, como la categoría del objeto, la escala y la posición espacial. En busca de un modelo ligero, incorporamos módulos de atención en el detector 2D, refinando el enfoque en características esenciales, minimizando cálculos redundantes y mejorando la precisión y eficiencia del modelo. Además, el algoritmo de filtrado de puntos disminuye sustancialmente el volumen de datos de nube de puntos al mismo tiempo que reduce su dimensionalidad, logrando finalmente datos 3D ligeros. A través de experimentos comparativos en el conjunto de datos KITTI, nuestro método supera a enfoques tradicionales, logrando una precisión promedio (AP) del 88.94% y una precisión de vista cenital (BEV) del 90.89% en la detección de automóviles.
Descripción
La fusión de la percepción de cámara y LiDAR se ha convertido en un punto focal de investigación en el campo de la conducción autónoma. Los algoritmos de fusión de imagen-nube de puntos LiDAR existentes son excesivamente complejos, y el procesamiento de grandes cantidades de datos de nube de puntos LiDAR 3D requiere una alta potencia computacional, lo que plantea desafíos para aplicaciones prácticas. Para superar los problemas mencionados, proponemos un método de Segmentación de Instancias Frustum (ISF)-PointPillars. Dentro del marco de nuestro método, los datos de entrada se derivan tanto de una cámara como de LiDAR. Las imágenes RGB se procesan utilizando una red mejorada de detección de objetos 2D basada en YOLOv8, lo que produce cajas delimitadoras rectangulares y contornos de borde de los objetos presentes en las escenas. Posteriormente, las cajas rectangulares se extienden al espacio 3D como frustums, y se eliminan los puntos 3D ubicados fuera de ellos. Luego, los contornos de borde 2D también se extienden a frustums para filtrar los puntos restantes de la etapa anterior. Finalmente, los puntos retenidos se envían a nuestra red mejorada de detección de objetos 3D basada en PointPillars, y esta red infiere información crucial, como la categoría del objeto, la escala y la posición espacial. En busca de un modelo ligero, incorporamos módulos de atención en el detector 2D, refinando el enfoque en características esenciales, minimizando cálculos redundantes y mejorando la precisión y eficiencia del modelo. Además, el algoritmo de filtrado de puntos disminuye sustancialmente el volumen de datos de nube de puntos al mismo tiempo que reduce su dimensionalidad, logrando finalmente datos 3D ligeros. A través de experimentos comparativos en el conjunto de datos KITTI, nuestro método supera a enfoques tradicionales, logrando una precisión promedio (AP) del 88.94% y una precisión de vista cenital (BEV) del 90.89% en la detección de automóviles.