Acelerador de Post-Procesamiento de Detección de Objetos Basado en el Co-Diseño de Hardware y Software
Autores: Yang, Dengtian; Chen, Lan; Hao, Xiaoran; Zhang, Yiheng
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Acelerador de Post-Procesamiento de Detección de Objetos Basado en el Co-Diseño de Hardware y Software
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de objetos
Postprocesos
Cajas delimitadoras
Intersección sobre Unión
Operaciones de ordenamiento
Acelerador de hardware
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El aprendizaje profundo avanza significativamente en la detección de objetos. Los procesos posteriores, un componente crítico de este proceso, seleccionan cajas delimitadoras válidas para representar los verdaderos objetivos durante la inferencia y asignan cajas y etiquetas a estos objetos durante el entrenamiento para optimizar la función de pérdida. Sin embargo, los procesos posteriores constituyen una parte sustancial del tiempo total de procesamiento para una sola imagen. Esta ineficiencia surge principalmente de los extensos cálculos de Intersección sobre Unión (IoU) requeridos entre numerosas cajas delimitadoras redundantes en los algoritmos de post procesamiento. Para reducir estos cálculos redundantes de IoU, introducimos una estrategia de priorización de clasificación durante los procesos posteriores de entrenamiento e inferencia. Además, los procesos posteriores implican operaciones de ordenamiento que contribuyen a su ineficiencia. Para minimizar comparaciones innecesarias en el ordenamiento Top-K, hemos mejorado el clasificador bitónico desarrollando un algoritmo bitónico híbrido. Estas mejoras han acelerado efectivamente el post procesamiento. Dadas las similitudes entre los procesos posteriores de entrenamiento e inferencia, unificamos cuatro algoritmos típicos de post procesamiento y diseñamos un acelerador de hardware basado en este marco. Nuestro acelerador logra al menos 7.55 veces la velocidad en el post procesamiento de inferencia en comparación con la de aceleradores recientes. En comparación con el sistema RTX 2080 Ti, nuestro acelerador propuesto ofrece al menos 21.93 veces la velocidad para el proceso de post entrenamiento y 19.89 veces para el proceso de post inferencia, mejorando así significativamente la eficiencia de la minimización de la función de pérdida.
Descripción
El aprendizaje profundo avanza significativamente en la detección de objetos. Los procesos posteriores, un componente crítico de este proceso, seleccionan cajas delimitadoras válidas para representar los verdaderos objetivos durante la inferencia y asignan cajas y etiquetas a estos objetos durante el entrenamiento para optimizar la función de pérdida. Sin embargo, los procesos posteriores constituyen una parte sustancial del tiempo total de procesamiento para una sola imagen. Esta ineficiencia surge principalmente de los extensos cálculos de Intersección sobre Unión (IoU) requeridos entre numerosas cajas delimitadoras redundantes en los algoritmos de post procesamiento. Para reducir estos cálculos redundantes de IoU, introducimos una estrategia de priorización de clasificación durante los procesos posteriores de entrenamiento e inferencia. Además, los procesos posteriores implican operaciones de ordenamiento que contribuyen a su ineficiencia. Para minimizar comparaciones innecesarias en el ordenamiento Top-K, hemos mejorado el clasificador bitónico desarrollando un algoritmo bitónico híbrido. Estas mejoras han acelerado efectivamente el post procesamiento. Dadas las similitudes entre los procesos posteriores de entrenamiento e inferencia, unificamos cuatro algoritmos típicos de post procesamiento y diseñamos un acelerador de hardware basado en este marco. Nuestro acelerador logra al menos 7.55 veces la velocidad en el post procesamiento de inferencia en comparación con la de aceleradores recientes. En comparación con el sistema RTX 2080 Ti, nuestro acelerador propuesto ofrece al menos 21.93 veces la velocidad para el proceso de post entrenamiento y 19.89 veces para el proceso de post inferencia, mejorando así significativamente la eficiencia de la minimización de la función de pérdida.