Un Acelerador Heterogéneo DSP-FPGA para la Estimación de Pose a Bordo de Objetivos No Cooperativos
Autores: Song, Qiuyu; Liu, Kai; Li, Shangrong; Wang, Mengyuan; Wang, Junyi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un Acelerador Heterogéneo DSP-FPGA para la Estimación de Pose a Bordo de Objetivos No Cooperativos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Objetivos
Estimación de pose
Algoritmos
Co-diseño de hardware y software
Acelerador basado en FPGA
Técnicas de optimización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La creciente presencia de objetivos no cooperativos plantea desafíos significativos para el entorno espacial y amenaza la sostenibilidad de las operaciones aeroespaciales. La percepción precisa en órbita de tales objetivos, particularmente aquellos sin marcadores cooperativos, requiere algoritmos avanzados y arquitecturas de sistema eficientes. Este estudio presenta un marco de co-diseño de hardware y software para la estimación de pose de objetivos no cooperativos. En primer lugar, se propone una arquitectura de dos etapas, que comprende la detección de objetos y la estimación de pose. YOLOv5s se modifica con un módulo Focus para mejorar la extracción de características, y URSONet adopta un agrupamiento promedio global para reducir la carga computacional. Se aplican técnicas de optimización, incluyendo fusión de normalización por lotes, integración de ReLU y cuantización lineal, para mejorar la eficiencia de inferencia. En segundo lugar, se desarrolla un acelerador personalizado basado en FPGA con un programador de instrucciones, un mecanismo de segmentación de memoria y una matriz de computación. El control a nivel de instrucción apoya la generalización del modelo, mientras que una estrategia de concatenación de pesos mejora la utilización de recursos durante la convolución. Finalmente, se implementa un sistema heterogéneo DSP-FPGA, donde el DSP gestiona el preprocesamiento de datos y la integración de resultados, y el FPGA realiza la inferencia central. El sistema se despliega en un FPGA Xilinx X7K325T que opera a 200 MHz. Los resultados experimentales muestran que el modelo optimizado alcanza un rendimiento máximo de 399.16 GOP/s con menos del 1% de pérdida de precisión. El diseño propuesto alcanza 0.461 y 0.447 GOP/s/DSP48E1 para dos variantes de modelo, logrando una mejora de 2x a 3x en comparación con diseños similares.
Descripción
La creciente presencia de objetivos no cooperativos plantea desafíos significativos para el entorno espacial y amenaza la sostenibilidad de las operaciones aeroespaciales. La percepción precisa en órbita de tales objetivos, particularmente aquellos sin marcadores cooperativos, requiere algoritmos avanzados y arquitecturas de sistema eficientes. Este estudio presenta un marco de co-diseño de hardware y software para la estimación de pose de objetivos no cooperativos. En primer lugar, se propone una arquitectura de dos etapas, que comprende la detección de objetos y la estimación de pose. YOLOv5s se modifica con un módulo Focus para mejorar la extracción de características, y URSONet adopta un agrupamiento promedio global para reducir la carga computacional. Se aplican técnicas de optimización, incluyendo fusión de normalización por lotes, integración de ReLU y cuantización lineal, para mejorar la eficiencia de inferencia. En segundo lugar, se desarrolla un acelerador personalizado basado en FPGA con un programador de instrucciones, un mecanismo de segmentación de memoria y una matriz de computación. El control a nivel de instrucción apoya la generalización del modelo, mientras que una estrategia de concatenación de pesos mejora la utilización de recursos durante la convolución. Finalmente, se implementa un sistema heterogéneo DSP-FPGA, donde el DSP gestiona el preprocesamiento de datos y la integración de resultados, y el FPGA realiza la inferencia central. El sistema se despliega en un FPGA Xilinx X7K325T que opera a 200 MHz. Los resultados experimentales muestran que el modelo optimizado alcanza un rendimiento máximo de 399.16 GOP/s con menos del 1% de pérdida de precisión. El diseño propuesto alcanza 0.461 y 0.447 GOP/s/DSP48E1 para dos variantes de modelo, logrando una mejora de 2x a 3x en comparación con diseños similares.