Lstm-crp: algoritmo-hardware co-diseño e implementación de política de reemplazo de caché utilizando memoria a largo plazo y corto plazo
Autores: Wang, Yizhou; Meng, Yishuo; Wang, Jiaxing; Yang, Chen
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Lstm-crp: algoritmo-hardware co-diseño e implementación de política de reemplazo de caché utilizando memoria a largo plazo y corto plazo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Aprendizaje profundo
Algoritmos de reemplazo de caché
Redes neuronales
Algoritmo LSTM-CRP
Implementación de hardware
Tasa de aciertos de caché
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 48
Citaciones: Sin citaciones
A medida que el aprendizaje profundo ha producido avances dramáticos en muchas áreas, ha motivado estudios emergentes sobre la combinación entre redes neuronales y algoritmos de reemplazo de caché. Sin embargo, el aprendizaje profundo no es adecuado para realizar el reemplazo de caché en implementaciones de hardware porque sus modelos de redes neuronales son imprácticamente grandes y lentos. Muchos estudios han intentado utilizar la guía del algoritmo de Belady para acelerar la predicción del reemplazo de caché. Pero sigue siendo imposible predecir con precisión las características de las direcciones de acceso futuro, lo que introduce inexactitudes en la discriminación de patrones de acceso complejos. Por lo tanto, este artículo presenta el algoritmo LSTM-CRP, así como su implementación eficiente en hardware, que emplea la memoria a corto y largo plazo (LSTM) para la identificación de patrones de acceso en tiempo de ejecución para guiar el algoritmo de reemplazo de caché. LSTM-CRP convierte primero la dirección en una nueva clave de acuerdo con la frecuencia de la dirección de acceso y una capacidad virtual de la caché, lo que tiene ventajas de baja redundancia de información y alta puntualidad. Utilizando la clave como entradas de cuatro predictores basados en redes LSTM entrenadas fuera de línea, LSTM-CRP puede clasificar con precisión diferentes patrones de acceso e identificar las características actuales de la caché de manera oportuna a través de un mecanismo de duelo de conjuntos en cachés de muestreo. Para una implementación eficiente, se construyen redes LSTM ligeras y heterogéneas dedicadas en LSTM-CRP para reducir la sobrecarga de hardware y el retraso de inferencia. Los resultados experimentales muestran que LSTM-CRP pudo mejorar en promedio la tasa de aciertos en caché en un 20,10%, 15,35%, 12,11% y 8,49% en comparación con LRU, RRIP, Hawkeye y Glider, respectivamente. Implementado en Xilinx XCVU9P FPGA con un costo de 15.973 LUTs y 1610 registros FF, LSTM-CRP funcionaba a una frecuencia de 200 MHz con un consumo de energía de 2,74 W.
Descripción
A medida que el aprendizaje profundo ha producido avances dramáticos en muchas áreas, ha motivado estudios emergentes sobre la combinación entre redes neuronales y algoritmos de reemplazo de caché. Sin embargo, el aprendizaje profundo no es adecuado para realizar el reemplazo de caché en implementaciones de hardware porque sus modelos de redes neuronales son imprácticamente grandes y lentos. Muchos estudios han intentado utilizar la guía del algoritmo de Belady para acelerar la predicción del reemplazo de caché. Pero sigue siendo imposible predecir con precisión las características de las direcciones de acceso futuro, lo que introduce inexactitudes en la discriminación de patrones de acceso complejos. Por lo tanto, este artículo presenta el algoritmo LSTM-CRP, así como su implementación eficiente en hardware, que emplea la memoria a corto y largo plazo (LSTM) para la identificación de patrones de acceso en tiempo de ejecución para guiar el algoritmo de reemplazo de caché. LSTM-CRP convierte primero la dirección en una nueva clave de acuerdo con la frecuencia de la dirección de acceso y una capacidad virtual de la caché, lo que tiene ventajas de baja redundancia de información y alta puntualidad. Utilizando la clave como entradas de cuatro predictores basados en redes LSTM entrenadas fuera de línea, LSTM-CRP puede clasificar con precisión diferentes patrones de acceso e identificar las características actuales de la caché de manera oportuna a través de un mecanismo de duelo de conjuntos en cachés de muestreo. Para una implementación eficiente, se construyen redes LSTM ligeras y heterogéneas dedicadas en LSTM-CRP para reducir la sobrecarga de hardware y el retraso de inferencia. Los resultados experimentales muestran que LSTM-CRP pudo mejorar en promedio la tasa de aciertos en caché en un 20,10%, 15,35%, 12,11% y 8,49% en comparación con LRU, RRIP, Hawkeye y Glider, respectivamente. Implementado en Xilinx XCVU9P FPGA con un costo de 15.973 LUTs y 1610 registros FF, LSTM-CRP funcionaba a una frecuencia de 200 MHz con un consumo de energía de 2,74 W.