Hardware acceleration y implementación de YOLOX-s para FPGA en órbita
Autores: Wang, Ling; Zhou, Hai; Bian, Chunjiang; Jiang, Kangning; Cheng, Xiaolei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Hardware acceleration y implementación de YOLOX-s para FPGA en órbita
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Teledetección
Datos de imagen
Satélite
Métodos de procesamiento
Red de detección YOLOX-s
FPGA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
El rápido desarrollo de la tecnología de teledetección ha provocado un aumento significativo en la cantidad de datos de imágenes de teledetección. Sin embargo, debido a los recursos limitados de hardware, espacio y restricciones de consumo de energía de los satélites, es difícil procesar de manera eficiente y robusta masivas imágenes de teledetección utilizando los métodos tradicionales de procesamiento de imágenes de teledetección. Además, la tarea de detección de objetivos satelitales a tierra tiene mayores requisitos de velocidad y precisión en condiciones de cada vez más datos de teledetección. Para resolver estos problemas, este documento propone una arquitectura de aceleración extremadamente eficiente y confiable para la inferencia directa de la red de detección YOLOX-s en un FPGA en órbita. Considerando los recursos limitados a bordo, se adopta la estrategia de diseño del desenrollado en bucle paralelo de los canales de entrada y salida para construir la matriz de cálculo DSP más grande y garantizar una utilización completa y confiable de los recursos de cálculo limitados, reduciendo así la demora de inferencia de toda la red. Mientras tanto, se diseñan una cola de caché de tres vías y una matriz de agrupamiento en cascada a pequeña escala, que maximizan la reutilización de los datos de caché en chip, reducen efectivamente el cuello de botella de ancho de banda de la memoria externa y garantizan un cálculo eficiente de toda la matriz de cálculo. Los resultados experimentales muestran que, a una frecuencia de operación de 200 MHz del VC709, el rendimiento general de inferencia de la aceleración del FPGA puede alcanzar los 399,62 GOPS, el rendimiento máximo puede alcanzar los 408,4 GOPS y la eficiencia general de cálculo de la matriz DSP puede alcanzar el 97,56%. En comparación con el trabajo previo, nuestro diseño de arquitectura mejora aún más la eficiencia de cálculo bajo recursos de hardware limitados.
Descripción
El rápido desarrollo de la tecnología de teledetección ha provocado un aumento significativo en la cantidad de datos de imágenes de teledetección. Sin embargo, debido a los recursos limitados de hardware, espacio y restricciones de consumo de energía de los satélites, es difícil procesar de manera eficiente y robusta masivas imágenes de teledetección utilizando los métodos tradicionales de procesamiento de imágenes de teledetección. Además, la tarea de detección de objetivos satelitales a tierra tiene mayores requisitos de velocidad y precisión en condiciones de cada vez más datos de teledetección. Para resolver estos problemas, este documento propone una arquitectura de aceleración extremadamente eficiente y confiable para la inferencia directa de la red de detección YOLOX-s en un FPGA en órbita. Considerando los recursos limitados a bordo, se adopta la estrategia de diseño del desenrollado en bucle paralelo de los canales de entrada y salida para construir la matriz de cálculo DSP más grande y garantizar una utilización completa y confiable de los recursos de cálculo limitados, reduciendo así la demora de inferencia de toda la red. Mientras tanto, se diseñan una cola de caché de tres vías y una matriz de agrupamiento en cascada a pequeña escala, que maximizan la reutilización de los datos de caché en chip, reducen efectivamente el cuello de botella de ancho de banda de la memoria externa y garantizan un cálculo eficiente de toda la matriz de cálculo. Los resultados experimentales muestran que, a una frecuencia de operación de 200 MHz del VC709, el rendimiento general de inferencia de la aceleración del FPGA puede alcanzar los 399,62 GOPS, el rendimiento máximo puede alcanzar los 408,4 GOPS y la eficiencia general de cálculo de la matriz DSP puede alcanzar el 97,56%. En comparación con el trabajo previo, nuestro diseño de arquitectura mejora aún más la eficiencia de cálculo bajo recursos de hardware limitados.