Revisando técnicas tolerantes a fallas basadas en síntomas contra errores suaves
Autores: So, Hwisoo; Didehban, Moslem; Ko, Yohan; Jeyapaul, Reiley; Kim, Jongho; Kim, Youngbin; Lee, Kyoungwoo; Shrivastava, Aviral
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Revisando técnicas tolerantes a fallas basadas en síntomas contra errores suaves
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Escalado de tecnología
Confiabilidad de errores suaves
Microprocesadores integrados
Esquemas de protección de errores basados en síntomas
Cobertura de fallas
Sobrecostos de rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La escalabilidad agresiva de la tecnología y la computación cercana al umbral han convertido la confiabilidad ante errores suaves en una de las principales consideraciones de diseño en los microprocesadores integrados modernos. Aunque los esquemas tradicionales basados en redundancia hardware/software pueden proporcionar un alto nivel de protección, incurren en sobrecargas significativas en términos de rendimiento y recursos de hardware. Los considerables costos adicionales de tales técnicas basadas en redundancia completa han motivado a los investigadores a proponer esquemas de protección contra errores suaves de bajo costo, como los esquemas de protección basados en síntomas. La idea principal detrás de un esquema de protección contra errores basado en síntomas es que los errores suaves en el sistema generarán rápidamente algunos síntomas, como excepciones, predicciones erróneas de ramas, fallos de caché o TLB, o valores de variables impredecibles. Por lo tanto, monitorear tales síntomas poco frecuentes hace posible cubrir la manifestación de fallas causadas por errores suaves. Los esquemas de protección basados en síntomas se han sugerido como atajos para lograr una confiabilidad aceptable con sobrecargas comparables. Dado que los esquemas de protección basados en síntomas parecen atractivos debido a su generalidad y simplicidad, incluso los esquemas de protección de última generación los explotan como protecciones básicas. Sin embargo, nuestro análisis detallado de la cobertura de fallas y las sobrecargas de rendimiento de tales esquemas revela que la cobertura de fallas visible para el usuario, en particular de ReStore, es limitada (29% en promedio). En contraste, las sobrecargas en tiempo de ejecución son significativas (40% en promedio) porque la mayoría de los experimentos de inyección de fallas, que se consideraron como fallas detectadas/recuperadas por síntomas de bajo nivel, son en realidad fallas benignas debido a efectos de enmascaramiento a nivel de programa.
Descripción
La escalabilidad agresiva de la tecnología y la computación cercana al umbral han convertido la confiabilidad ante errores suaves en una de las principales consideraciones de diseño en los microprocesadores integrados modernos. Aunque los esquemas tradicionales basados en redundancia hardware/software pueden proporcionar un alto nivel de protección, incurren en sobrecargas significativas en términos de rendimiento y recursos de hardware. Los considerables costos adicionales de tales técnicas basadas en redundancia completa han motivado a los investigadores a proponer esquemas de protección contra errores suaves de bajo costo, como los esquemas de protección basados en síntomas. La idea principal detrás de un esquema de protección contra errores basado en síntomas es que los errores suaves en el sistema generarán rápidamente algunos síntomas, como excepciones, predicciones erróneas de ramas, fallos de caché o TLB, o valores de variables impredecibles. Por lo tanto, monitorear tales síntomas poco frecuentes hace posible cubrir la manifestación de fallas causadas por errores suaves. Los esquemas de protección basados en síntomas se han sugerido como atajos para lograr una confiabilidad aceptable con sobrecargas comparables. Dado que los esquemas de protección basados en síntomas parecen atractivos debido a su generalidad y simplicidad, incluso los esquemas de protección de última generación los explotan como protecciones básicas. Sin embargo, nuestro análisis detallado de la cobertura de fallas y las sobrecargas de rendimiento de tales esquemas revela que la cobertura de fallas visible para el usuario, en particular de ReStore, es limitada (29% en promedio). En contraste, las sobrecargas en tiempo de ejecución son significativas (40% en promedio) porque la mayoría de los experimentos de inyección de fallas, que se consideraron como fallas detectadas/recuperadas por síntomas de bajo nivel, son en realidad fallas benignas debido a efectos de enmascaramiento a nivel de programa.