Mejorando la conciencia de fallas y la confiabilidad de un sistema en chip RISC-V tolerante a fallas
Autores: Santos, Douglas A.; Mattos, André M. P.; Melo, Douglas R.; Dilillo, Luigi
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando la conciencia de fallas y la confiabilidad de un sistema en chip RISC-V tolerante a fallas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Interés
Procesadores RISC-V
Electrónica de alta confiabilidad
Técnicas de tolerancia a fallas
Entornos de radiación
Conciencia de fallos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Investigaciones recientes han mostrado interés en adoptar los procesadores RISC-V para electrónica de alta confiabilidad, como aplicaciones aeroespaciales. La apertura de esta arquitectura permite la implementación y personalización de las características del procesador para aumentar su confiabilidad. Estudios sobre procesadores RISC-V endurecidos enfrentando entornos de radiación severa aplican técnicas de tolerancia a fallos en el núcleo del procesador y periféricos, explotando redundancias del sistema. En trabajos anteriores, presentamos un System-on-Chip (SoC) RISC-V endurecido, el cual podría detectar y corregir fallos inducidos por radiación con conciencia limitada de fallos. Por lo tanto, en este trabajo, proponemos soluciones para extender la observabilidad de fallos de la implementación del SoC proporcionando detección de errores y monitoreo. Con este propósito, introducimos características de observación en las estructuras redundantes del sistema, permitiendo el reporte de información valiosa que respalda pruebas de radiación mejoradas y apoya la aplicación para realizar acciones para recuperarse de fallas críticas. Así, la principal contribución de este trabajo es una solución para mejorar la conciencia de fallos y el análisis de los modelos de fallos en el sistema. Para validar esta solución, realizamos experimentos complementarios en dos instalaciones de irradiación, comprendiendo neutrones atmosféricos y un entorno de campo mixto, en los cuales el sistema demostró ser valioso para analizar los efectos de radiación en el núcleo del procesador y sus periféricos. En estos experimentos, pudimos obtener una variedad de informes de errores que nos permitieron obtener una comprensión más profunda de los mecanismos de fallos, así como mejorar la caracterización del SoC.
Descripción
Investigaciones recientes han mostrado interés en adoptar los procesadores RISC-V para electrónica de alta confiabilidad, como aplicaciones aeroespaciales. La apertura de esta arquitectura permite la implementación y personalización de las características del procesador para aumentar su confiabilidad. Estudios sobre procesadores RISC-V endurecidos enfrentando entornos de radiación severa aplican técnicas de tolerancia a fallos en el núcleo del procesador y periféricos, explotando redundancias del sistema. En trabajos anteriores, presentamos un System-on-Chip (SoC) RISC-V endurecido, el cual podría detectar y corregir fallos inducidos por radiación con conciencia limitada de fallos. Por lo tanto, en este trabajo, proponemos soluciones para extender la observabilidad de fallos de la implementación del SoC proporcionando detección de errores y monitoreo. Con este propósito, introducimos características de observación en las estructuras redundantes del sistema, permitiendo el reporte de información valiosa que respalda pruebas de radiación mejoradas y apoya la aplicación para realizar acciones para recuperarse de fallas críticas. Así, la principal contribución de este trabajo es una solución para mejorar la conciencia de fallos y el análisis de los modelos de fallos en el sistema. Para validar esta solución, realizamos experimentos complementarios en dos instalaciones de irradiación, comprendiendo neutrones atmosféricos y un entorno de campo mixto, en los cuales el sistema demostró ser valioso para analizar los efectos de radiación en el núcleo del procesador y sus periféricos. En estos experimentos, pudimos obtener una variedad de informes de errores que nos permitieron obtener una comprensión más profunda de los mecanismos de fallos, así como mejorar la caracterización del SoC.