logo móvil
Contáctanos

Explorando los impactos de fallas de hardware en diferentes representaciones de números reales de la resistencia estructural de las TCUs en las GPUs

Autores: Limas Sierra, Robert; Guerrero-Balaguera, Juan-David; Condia, Josie E. Rodriguez; Sonza Reorda, Matteo

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Explorando los impactos de fallas de hardware en diferentes representaciones de números reales de la resistencia estructural de las TCUs en las GPUs


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Unidades de procesamiento gráfico
Operaciones convolucionales
Aplicaciones de aprendizaje automático
Unidades de Núcleo Tensor
Defectos de hardware
Aplicaciones críticas de seguridad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
Las generaciones más recientes de unidades de procesamiento gráfico (GPUs) mejoran la ejecución de operaciones convolucionales requeridas por aplicaciones de aprendizaje automático mediante el uso de aceleradores especializados y eficientes en el chip (Unidades de Núcleo Tensor o TCUs) que operan en mosaicos de multiplicación de matrices. Desafortunadamente, las tecnologías de semiconductores de vanguardia modernas son cada vez más propensas a defectos de hardware, y la tendencia a estresar altamente a los TCUs durante la ejecución de aplicaciones de computación de alto rendimiento y críticas para la seguridad aumenta la probabilidad de que los TCUs produzcan diferentes tipos de fallas. De hecho, la resiliencia intrínseca a fallas de hardware de las unidades aritméticas juega un papel crucial en aplicaciones críticas para la seguridad que utilizan GPUs (por ejemplo, en automoción, espacio y robótica autónoma). Recientemente, se han propuesto nuevos formatos aritméticos, especialmente aquellos adecuados para la ejecución de redes neuronales. Sin embargo, aún faltaba la caracterización de confiabilidad de los TCUs que admiten diferentes formatos aritméticos. En este trabajo, evaluamos cuantitativamente el impacto de fallas de hardware en las estructuras de TCU empleando dos formatos distintos (punto flotante y positivo) y utilizando dos configuraciones diferentes (16 y 32 bits) para representar números reales. Para la evaluación experimental, recurrimos a una descripción arquitectónica de un núcleo TCU (PyOpenTCU) y realizamos 120 campañas de simulación de fallas, inyectando alrededor de 200,000 fallas por campaña y requiriendo alrededor de 32 días de computación. Nuestros resultados demuestran que el formato positivo de los TCUs se ve menos afectado por fallas que el de punto flotante (hasta tres órdenes de magnitud para 16 bits y hasta veinte órdenes para 32 bits). También identificamos las ubicaciones de fallas más sensibles (es decir, aquellas que producen los mayores errores), allanando así el camino para adoptar soluciones inteligentes de endurecimiento.

Otros recursos que podrían interesarte

Temas Virtualpro