Occtr: una red de fusión BEV de dos etapas para la detección temporal de objetos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Occtr: una red de fusión BEV de dos etapas para la detección temporal de objetos

Autores: Fu, Qifang; Yu, Xinyi; Ou, Linlin

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Occtr: una red de fusión BEV de dos etapas para la detección temporal de objetos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Fusión temporal

Percepción visual en 3D

Iov

Internet de vehículos

Occtr

Transformador de ocupación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

Los enfoques de fusión temporal son críticos para las tareas de percepción visual 3D en IOV (Internet de los Vehículos), pero a menudo se basan en representaciones intermedias sin utilizar completamente la información de posición de los resultados de detección del marco anterior, lo que no puede compensar la falta de información de profundidad en los datos visuales. En este trabajo, proponemos un marco novedoso llamado OccTr (Transformador de Ocupación) que combina dos señales temporales, representación intermedia y representación de fondo, a través de un mapa de ocupación para mejorar la fusión temporal en la tarea de detección de objetos. OccTr aprovecha mecanismos de atención para realizar tanto la fusión temporal intermedia como la de fondo incorporando características intermedias BEV (vista cenital) y resultados de predicción de fondo del detector. Nuestro marco de dos etapas incluye la generación de mapas de ocupación y la fusión de características de atención cruzada. En la primera etapa, los resultados de predicción se convierten en formato de mapa de cuadrícula de ocupación para generar la representación de fondo. En la segunda etapa, los mapas de ocupación de alta resolución se fusionan con las características BEV utilizando capas de atención cruzada. Esta señal temporal fusionada proporciona una fuerte prioridad para el proceso de detección temporal. Los resultados experimentales demuestran la efectividad de nuestro método en mejorar el rendimiento de detección, logrando un puntaje métrico de NDS (Puntuación de Detección de nuScenes) del 37.35% en el conjunto de pruebas de nuScenes, que es 1.94 puntos más alto que el valor base.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro