Mejora en la detección de objetos 3D basada en PointPillars
Autores: Kong, Weiwei; Du, Yusheng; He, Leilei; Li, Zejiang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mejora en la detección de objetos 3D basada en PointPillars
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Avances recientes
Detección de objetos 3D
Algoritmo PointPillars
Detección de objetos pequeños
Mecanismo de atención
Modelos de transformador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 88
Citaciones: Sin citaciones
A pesar de los avances recientes en la detección de objetos en 3D, se ha encontrado que los algoritmos convencionales de detección de objetos en la nube de puntos 3D presentan una precisión limitada para la detección de objetos pequeños. Para abordar el desafío de la mala detección de objetos a pequeña escala, este documento adopta el algoritmo PointPillars como modelo base y propone un enfoque de detección de objetivos en 3D de dos etapas. Como solución de vanguardia, el procesamiento de la nube de puntos se realiza utilizando modelos Transformer. Además, se introduce un mecanismo de atención redefinido para mejorar aún más las capacidades de detección del algoritmo. En la primera etapa, el algoritmo utiliza PointPillars como modelo base. El concepto central de este algoritmo es transformar el espacio de la nube de puntos en columnas de tamaño igual. Durante la etapa de extracción de características, cuando las características de todos los cilindros se transforman en pseudoimágenes, el algoritmo propuesto incorpora mecanismos de atención adaptados del método Squeeze-and-Excitation (SE) para enfatizar y suprimir la información de características. Además, la convolución 2D de la red tradicional se reemplaza por la convolución dinámica. Concurrentemente, la adición del mecanismo de atención mejora aún más la capacidad de representación de características de la red. En la segunda fase, los marcos candidatos generados en la primera fase se refinan utilizando un enfoque basado en Transformer. El algoritmo propuesto aplica ponderación de canales en el decodificador para mejorar la información del canal, lo que conduce a una mayor precisión de detección y a una reducción de detecciones falsas. El codificador construye las características iniciales de puntos a partir de los marcos candidatos para la codificación. Mientras tanto, el decodificador aplica ponderación de canales para mejorar la información del canal, mejorando así la precisión de detección y reduciendo las detecciones falsas. En el conjunto de datos KITTI, los resultados experimentales verifican la efectividad de este método en la detección de objetos pequeños. Los resultados experimentales muestran que el método propuesto mejora significativamente la capacidad de detección de objetos pequeños en comparación con el modelo base PointPillars. En términos concretos, en la categoría de detección de dificultad moderada, los valores de precisión promedio (AP) de coches, peatones y ciclistas aumentaron en un 5,30%, 8,1% y 10,6%, respectivamente. Además, el método propuesto supera a los enfoques principales existentes en la categoría de ciclistas.
Descripción
A pesar de los avances recientes en la detección de objetos en 3D, se ha encontrado que los algoritmos convencionales de detección de objetos en la nube de puntos 3D presentan una precisión limitada para la detección de objetos pequeños. Para abordar el desafío de la mala detección de objetos a pequeña escala, este documento adopta el algoritmo PointPillars como modelo base y propone un enfoque de detección de objetivos en 3D de dos etapas. Como solución de vanguardia, el procesamiento de la nube de puntos se realiza utilizando modelos Transformer. Además, se introduce un mecanismo de atención redefinido para mejorar aún más las capacidades de detección del algoritmo. En la primera etapa, el algoritmo utiliza PointPillars como modelo base. El concepto central de este algoritmo es transformar el espacio de la nube de puntos en columnas de tamaño igual. Durante la etapa de extracción de características, cuando las características de todos los cilindros se transforman en pseudoimágenes, el algoritmo propuesto incorpora mecanismos de atención adaptados del método Squeeze-and-Excitation (SE) para enfatizar y suprimir la información de características. Además, la convolución 2D de la red tradicional se reemplaza por la convolución dinámica. Concurrentemente, la adición del mecanismo de atención mejora aún más la capacidad de representación de características de la red. En la segunda fase, los marcos candidatos generados en la primera fase se refinan utilizando un enfoque basado en Transformer. El algoritmo propuesto aplica ponderación de canales en el decodificador para mejorar la información del canal, lo que conduce a una mayor precisión de detección y a una reducción de detecciones falsas. El codificador construye las características iniciales de puntos a partir de los marcos candidatos para la codificación. Mientras tanto, el decodificador aplica ponderación de canales para mejorar la información del canal, mejorando así la precisión de detección y reduciendo las detecciones falsas. En el conjunto de datos KITTI, los resultados experimentales verifican la efectividad de este método en la detección de objetos pequeños. Los resultados experimentales muestran que el método propuesto mejora significativamente la capacidad de detección de objetos pequeños en comparación con el modelo base PointPillars. En términos concretos, en la categoría de detección de dificultad moderada, los valores de precisión promedio (AP) de coches, peatones y ciclistas aumentaron en un 5,30%, 8,1% y 10,6%, respectivamente. Además, el método propuesto supera a los enfoques principales existentes en la categoría de ciclistas.