Arquitectura de inversión de matriz de hardware basada en FPGA utilizando celdas sistólicas de aproximación polinómica híbrida por tramos
Autores: Vázquez-Castillo, Javier; Castillo-Atoche, Alejandro; Carrasco-Alvarez, Roberto; Longoria-Gandara, Omar; Ortegón-Aguilar, Jaime
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Arquitectura de inversión de matriz de hardware basada en FPGA utilizando celdas sistólicas de aproximación polinómica híbrida por tramos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Inversión de matriz
Arquitectura basada en FPGA
Descomposición QR
Rotaciones de Givens
Aproximación polinómica por partes
Celdas sístolicas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El hardware de la arquitectura de inversión de matriz utilizando descomposición QR con Rotaciones de Givens (GR) y un bloque de sustitución inversa (BS) es necesario para muchos algoritmos de procesamiento de señales. Sin embargo, el hardware del algoritmo GR requiere la implementación de operaciones complejas, como la raíz cuadrada recíproca (RSR), que típicamente se implementa utilizando Tablas de Búsqueda (LUT) y Computadoras Digitales de Rotación Coordinada (CORDICs), entre otros, lo que conduce a un alto consumo de área o a una baja velocidad de procesamiento. Este documento presenta una arquitectura de inversión de matriz completa basada en Field-Programmable Gate Array (FPGA) utilizando celdas sístolicas de aproximación polinómica por partes híbridas. En el diseño, se incorporó una técnica de segmentación híbrida para la implementación de celdas sístolicas polinómicas por partes. Este enfoque híbrido está compuesto por una segmentación externa e interna, donde la primera es no uniforme y la segunda es uniforme, ajustando la forma de la curva de las funciones complejas logrando una mejor relación señal-cuantificación-ruido; además, mejora el rendimiento temporal y los recursos de área. Los resultados experimentales revelan una mejora bien equilibrada en el diseño logrando una alta velocidad de procesamiento y, por lo tanto, una menor utilización de recursos en comparación con las arquitecturas basadas en FPGA de última generación. En nuestro estudio, el diseño propuesto logra 7.51 Mega-Matrices por segundo para realizar operaciones de matriz 4 x 4 con una latencia de 12 ciclos de reloj; mientras tanto, el diseño de hardware requiere solo 1474 registros de slice, 1458 LUTs en un FPGA Virtex-5 XC5VLX220T, y 1474 registros de slice y 1378 LUTs cuando se utiliza un FPGA Virtex-6 XC6VLX240T.
Descripción
El hardware de la arquitectura de inversión de matriz utilizando descomposición QR con Rotaciones de Givens (GR) y un bloque de sustitución inversa (BS) es necesario para muchos algoritmos de procesamiento de señales. Sin embargo, el hardware del algoritmo GR requiere la implementación de operaciones complejas, como la raíz cuadrada recíproca (RSR), que típicamente se implementa utilizando Tablas de Búsqueda (LUT) y Computadoras Digitales de Rotación Coordinada (CORDICs), entre otros, lo que conduce a un alto consumo de área o a una baja velocidad de procesamiento. Este documento presenta una arquitectura de inversión de matriz completa basada en Field-Programmable Gate Array (FPGA) utilizando celdas sístolicas de aproximación polinómica por partes híbridas. En el diseño, se incorporó una técnica de segmentación híbrida para la implementación de celdas sístolicas polinómicas por partes. Este enfoque híbrido está compuesto por una segmentación externa e interna, donde la primera es no uniforme y la segunda es uniforme, ajustando la forma de la curva de las funciones complejas logrando una mejor relación señal-cuantificación-ruido; además, mejora el rendimiento temporal y los recursos de área. Los resultados experimentales revelan una mejora bien equilibrada en el diseño logrando una alta velocidad de procesamiento y, por lo tanto, una menor utilización de recursos en comparación con las arquitecturas basadas en FPGA de última generación. En nuestro estudio, el diseño propuesto logra 7.51 Mega-Matrices por segundo para realizar operaciones de matriz 4 x 4 con una latencia de 12 ciclos de reloj; mientras tanto, el diseño de hardware requiere solo 1474 registros de slice, 1458 LUTs en un FPGA Virtex-5 XC5VLX220T, y 1474 registros de slice y 1378 LUTs cuando se utiliza un FPGA Virtex-6 XC6VLX240T.