Occtr: una red de fusión BEV de dos etapas para la detección temporal de objetos
Autores: Fu, Qifang; Yu, Xinyi; Ou, Linlin
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Occtr: una red de fusión BEV de dos etapas para la detección temporal de objetos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Fusión temporal
Percepción visual en 3D
Iov
Internet de vehículos
Occtr
Transformador de ocupación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Los enfoques de fusión temporal son críticos para las tareas de percepción visual 3D en IOV (Internet de los Vehículos), pero a menudo se basan en representaciones intermedias sin utilizar completamente la información de posición de los resultados de detección del marco anterior, lo que no puede compensar la falta de información de profundidad en los datos visuales. En este trabajo, proponemos un marco novedoso llamado OccTr (Transformador de Ocupación) que combina dos señales temporales, representación intermedia y representación de fondo, a través de un mapa de ocupación para mejorar la fusión temporal en la tarea de detección de objetos. OccTr aprovecha mecanismos de atención para realizar tanto la fusión temporal intermedia como la de fondo incorporando características intermedias BEV (vista cenital) y resultados de predicción de fondo del detector. Nuestro marco de dos etapas incluye la generación de mapas de ocupación y la fusión de características de atención cruzada. En la primera etapa, los resultados de predicción se convierten en formato de mapa de cuadrícula de ocupación para generar la representación de fondo. En la segunda etapa, los mapas de ocupación de alta resolución se fusionan con las características BEV utilizando capas de atención cruzada. Esta señal temporal fusionada proporciona una fuerte prioridad para el proceso de detección temporal. Los resultados experimentales demuestran la efectividad de nuestro método en mejorar el rendimiento de detección, logrando un puntaje métrico de NDS (Puntuación de Detección de nuScenes) del 37.35% en el conjunto de pruebas de nuScenes, que es 1.94 puntos más alto que el valor base.
Descripción
Los enfoques de fusión temporal son críticos para las tareas de percepción visual 3D en IOV (Internet de los Vehículos), pero a menudo se basan en representaciones intermedias sin utilizar completamente la información de posición de los resultados de detección del marco anterior, lo que no puede compensar la falta de información de profundidad en los datos visuales. En este trabajo, proponemos un marco novedoso llamado OccTr (Transformador de Ocupación) que combina dos señales temporales, representación intermedia y representación de fondo, a través de un mapa de ocupación para mejorar la fusión temporal en la tarea de detección de objetos. OccTr aprovecha mecanismos de atención para realizar tanto la fusión temporal intermedia como la de fondo incorporando características intermedias BEV (vista cenital) y resultados de predicción de fondo del detector. Nuestro marco de dos etapas incluye la generación de mapas de ocupación y la fusión de características de atención cruzada. En la primera etapa, los resultados de predicción se convierten en formato de mapa de cuadrícula de ocupación para generar la representación de fondo. En la segunda etapa, los mapas de ocupación de alta resolución se fusionan con las características BEV utilizando capas de atención cruzada. Esta señal temporal fusionada proporciona una fuerte prioridad para el proceso de detección temporal. Los resultados experimentales demuestran la efectividad de nuestro método en mejorar el rendimiento de detección, logrando un puntaje métrico de NDS (Puntuación de Detección de nuScenes) del 37.35% en el conjunto de pruebas de nuScenes, que es 1.94 puntos más alto que el valor base.