珠海做网站最好的公司,云南省建设监理协会网站,霍州做网站,如何制作网址图片由于激进的技术扩展#xff0c;现代系统越来越容易受到可靠性威胁的影响#xff0c;例如软错误、老化和工艺变化。这些威胁在硬件级别表现为位翻转#xff0c;并且根据位置#xff0c;可能会损坏输出#xff0c;从而导致不准确或潜在的灾难性结果。
传统的缓解技术基于冗…由于激进的技术扩展现代系统越来越容易受到可靠性威胁的影响例如软错误、老化和工艺变化。这些威胁在硬件级别表现为位翻转并且根据位置可能会损坏输出从而导致不准确或潜在的灾难性结果。
传统的缓解技术基于冗余例如双模块化冗余 DMR [16] 和三重模块化冗余 TMR [17]。然而由于 DNN 的计算密集型性质这些技术会导致巨大的开销对系统的效率产生负面影响。
纠错码 ECC 和指令重复 ID [18] 也存在类似的问题。因此需要替代缓解技术以低成本提高基于 DNN 的系统的弹性同时不影响效率。这些技术通常是通过利用 DNN 的固有特征并仅在系统中的关键位置部署保护或将关键错误转换为非关键错误来开发的。
A. 硬件引起的可靠性威胁 上图突出显示了硬件引起的可靠性威胁的主要类型以及它们如何影响基于 DNN 的系统的功能。
软误差是由于高能粒子撞击硬件而引起的瞬态故障这些故障在系统中表现为位翻转并可能传播到应用层并影响系统的功能/精度。CMOS器件的老化与各种物理现象有关例如偏置温度不稳定BTI、热载流子注入HCI和电迁移EM老化会导致时序错误从长远来看也可能导致永久性故障。工艺变化是由于制造过程中的缺陷而导致的硬件特性例如晶体管通道长度和导线电阻与所需特性的变化。这些变化通常会影响硬件的性能和效率因为它们需要增加电源电压或降低工作频率以确保正确的功能。极端变化会导致永久性故障从而影响制造过程的产量。
B. 具有成本效益的故障缓解技术
已经提出了各种技术来解决基于 DNN 的系统中硬件引起的可靠性威胁。
1 软错误缓解
软错误是暂时性故障在硬件级别表现为随机位翻转。这些故障有可能严重降低系统的性能特别是当它们发生在关键位置时。在硬件层面已经提出了改进的SRAM单元设计。辐射强化是另一种防止软错误的技术它用更强大的节点替换易受攻击的硬件节点提供更高的弹性[22]。但是这些技术需要对硬件的大多数部分进行修改附加硬件这会导致高开销。
为了克服这个问题最近提出了范围限制技术[23][24]该技术定义了激活值的工作范围并将所有异常值视为故障并根据一些预定义的策略将它们映射到该范围内。
2 永久故障缓解
在 DNN 的背景下永久性故障缓解的主要目标是提高专用 DNN 加速器的制造良率。由于永久性故障是静态故障因此对付它们最有效的技术之一是故障感知修剪FAP[25]。FAP 利用 DNN 的修剪弹性通过丢弃映射到故障处理元素 PE 的相应计算来缓解永久性故障。它需要进行制造后测试来识别有故障的 PE并在运行时使用此信息来识别需要绕过哪些 PE。
3 老化缓解
CMOS电路中的老化会导致时序误差。为了检测和减轻DNN硬件加速器计算阵列中时序误差的影响Zhang等人提出了ThunderVolt[27]这是一种利用剃刀触发器以及DNN的修剪弹性来减轻时序错误的技术。在检测到时序错误时ThunderVolt 会通过丢弃其计算来传递正确的结果从而从后续的 MAC 操作中窃取一个周期。计算的删除避免了整个数组的停滞而 DNN 对修剪的弹性有助于保持基线准确性。
为了缓解DNN加速器片上SRAM单元的老化最近Hanif等人提出了DNN-Life[28]。该技术采用读写传感器来平衡SRAM每个单元的占空比从而最大限度地减少NBTI老化这是现代纳米级器件中最突出的老化类型。
C. 开发高度可靠的 DNN 的挑战
缓解技术的集成对于每种类型的可靠性威胁已经提出了各种缓解技术其中一些是针对特定模块设计的例如片上存储器或计算结构。每种缓解技术通常也会影响系统对其他可靠性威胁的弹性。因此在构建一个强大而高效的基于 DNN 的系统时重要的是要研究不同缓解技术的相互作用并选择一组合适的技术在定义的约束和条件下提供最佳弹性。
对鲁棒算法的需求深度学习的核心问题之一是对抗性示例即注入小扰动会导致显著的精度损失。尽管对抗性示例仅在安全上下文中被认为是重要的但它们还提供了有关 DNN 对故障/错误的一般弹性的信息。强大的 DNN 可提供对对抗性噪声的高弹性这将说明对可靠性威胁的更高弹性。研究人员提出了各种方法来提高 DNN 对对抗噪声的鲁棒性;然而这些方法要么提供微小的收益要么仅在特定条件下显示出改进。因此迫切需要算法/方法以产生设计稳健的模型。
新兴技术对新型测试技术的需求内存处理 PIM 因其实现高能效的潜力而备受关注。它们通常基于新兴存储器如ReRAM和自旋电子器件。此类器件具有独特的故障机制无法用传统故障模型建模也无法用传统测试方法进行测试[29;此外PIM中的内存具有两种配置存储和计算这一事实对其测试提出了额外的要求[1;29]。
参考文献
https://ieeexplore.ieee.org/document/9465409