logo móvil
Contáctanos

Hardware acceleration y implementación de YOLOX-s para FPGA en órbita

Autores: Wang, Ling; Zhou, Hai; Bian, Chunjiang; Jiang, Kangning; Cheng, Xiaolei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Hardware acceleration y implementación de YOLOX-s para FPGA en órbita


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Teledetección
Datos de imagen
Satélite
Métodos de procesamiento
Red de detección YOLOX-s
FPGA

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
El rápido desarrollo de la tecnología de teledetección ha provocado un aumento significativo en la cantidad de datos de imágenes de teledetección. Sin embargo, debido a los recursos limitados de hardware, espacio y restricciones de consumo de energía de los satélites, es difícil procesar de manera eficiente y robusta masivas imágenes de teledetección utilizando los métodos tradicionales de procesamiento de imágenes de teledetección. Además, la tarea de detección de objetivos satelitales a tierra tiene mayores requisitos de velocidad y precisión en condiciones de cada vez más datos de teledetección. Para resolver estos problemas, este documento propone una arquitectura de aceleración extremadamente eficiente y confiable para la inferencia directa de la red de detección YOLOX-s en un FPGA en órbita. Considerando los recursos limitados a bordo, se adopta la estrategia de diseño del desenrollado en bucle paralelo de los canales de entrada y salida para construir la matriz de cálculo DSP más grande y garantizar una utilización completa y confiable de los recursos de cálculo limitados, reduciendo así la demora de inferencia de toda la red. Mientras tanto, se diseñan una cola de caché de tres vías y una matriz de agrupamiento en cascada a pequeña escala, que maximizan la reutilización de los datos de caché en chip, reducen efectivamente el cuello de botella de ancho de banda de la memoria externa y garantizan un cálculo eficiente de toda la matriz de cálculo. Los resultados experimentales muestran que, a una frecuencia de operación de 200 MHz del VC709, el rendimiento general de inferencia de la aceleración del FPGA puede alcanzar los 399,62 GOPS, el rendimiento máximo puede alcanzar los 408,4 GOPS y la eficiencia general de cálculo de la matriz DSP puede alcanzar el 97,56%. En comparación con el trabajo previo, nuestro diseño de arquitectura mejora aún más la eficiencia de cálculo bajo recursos de hardware limitados.

Otros recursos que podrían interesarte

Temas Virtualpro