SSD可靠性指标MTTF、MTBF、AFR解析

企业环境的云架构变化非常迅速,非易失性固态硬盘(NVMe-basedSSD)以极高读写性能、极低延迟推动云环境的演进,企业级SSD发货量逐年快速增加。大规模部署下,SSD可靠性也是企业级用户的重点关注之一。
可靠性指的是一个部件或系统在规定的操作条件下,在特定的时间内继续执行其预定功能的概率。对于企业级SSD而言,可靠性是非常重要的一项指标。而硬件是SSD产品的基础,硬件设计的质量不但会直接决定产品出货的良率、故障率等核心指标,而且对数据可用性、一致性的保护,也起着关键的作用。
MTBF(MeanTimebetweenFailures,平均故障间隔时间)是一个可靠性量化指标,单位为“小时”。它反映了产品的时间质量,产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。MTBF通常用于一个故障可恢复的系统,是指系统两次故障间隔时间的平均值,也称为平均故障间隔。简单地说,产品故障少,也就是MTBF越高,意味着产品可靠性越高。
MTBF在硬件设计之初就需要考虑,可以用来评估不同品牌、型号硬盘的可靠性。MemblazePBlaze系列以2,000,000(2百万)小时MTBF为硬件可靠性目标,完成这个目标除了硬件电路的设计,重点还要考虑元器件的选型。因为MTBF的理论设计和每个元器件的故障率λ息息相关,还要考虑元器件如分立元器件(电容、电感、电阻)的使用数量,串联、并联的不同方式。
MTBF也是一个需要实际跑测验证的指标,但因为完成MTBF不间断测试非常耗时(200万小时相当于228年),因此一般SSD厂商都是基于一定样本量、一定时间段(通过加速因子加速)进行统计推断,模拟典型用户场景,通过实测验证理论值,代表用户提前验收产品质量。
电子产品有失效浴盆曲线的特性,通常用作视觉模型来说明产品失效率的三个关键时期。
SSD可靠性指标MTTF、MTBF、AFR解析-有驾
对于一个可维护的设备,MTBF=MTTF+MTTR,三者关系如下图所示:
因为MTTR通常远远小于MTTF,所以MTBF近似等于MTTF。MTBF用于可维护性和不可维护的系统。在传统机械硬盘(HDD)产品手册中能看到1,000,000或1,500,000小时的MTBF标称。
最简单的情况下,MTTF计算遵循如下公式。
其中:
上述等式中的加速因子通常分为3类:
TBW加速因子
TBW是SSD寿命单位,以寿命为1.5DWPD,用户容量3.84TBPBlaze6SSD为例,5年总的数据写入量(也就是现场部署写入量field)为10.5PBW,对应每天数据写入量为5.76TBW。如果增加每天的数据写入量(加速写入量stress),相当于加快消耗SSD寿命,可以加速故障出现。对于TBW加速因子,计算方法如下:
假设对于一个用户容量为100G的SSD,产品规格书定义SSD寿命为175TBW,连续5年(43800个小时)。在1008小时内写入130TB的数据,写放大为1.2,则TBW加速因子为32。
温度加速因子
JESD22-A108定义了温度随时间对SSD的影响,执行高温运行寿命(HTOL,HighTemperatureOperatingLife)测试,以确定长时间在高温条件下运行的设备的可靠性,协议定义如果没有特殊要求,SSD设备需在125°C的结温(JunctionTemperature)压力下测试,但企业级SSD会设计高温保护逻辑,防止温度过高造成NAND数据保持力下降和元器件的损坏,所以SSD的实际工作温度不会达到125℃。
对于温度加速因子,计算方法如下:
其中
MTTF计算示例(包括TBW和温度加速)
假设样本量为400,测试时间为1008小时,加速因子Ai=A(TBW)*A(T)为10,失败的数量为0,置信度为60%,则
注意,MTBF标称和温度有关
NAND因为固有特性,数据保持力会随着温度的升高会降低,由瑞典的阿伦尼乌斯所创立的阿伦尼乌斯公式(ArrheniusEquation),可以推算出,达到室温40℃下SSD放置1年(8670个小时),即相当于在85℃的老化室中放置52个小时。因此,OCPDatacenterNVMe®SSDSpecification中提到大型互联网厂商选型SSD的可靠性指标要求:
除了MTBF指标,还有其他可靠性量化表征指标,如故障率λ(FailureRate)和年化故障率AFR(AnnualizedFailureRate)。
MTBF和AFR都是针对大样本量的可靠性统计,二者可以相互转化,公式如下:
SSD可靠性指标MTTF、MTBF、AFR解析-有驾
根据JEDECJESD218定义,企业级SSD在宣称的生命周期内必须保证FFR≤3%,UBER≤10^{-16},关机后SSD在40℃常温下必须达到3个月的数据保持力。其中功能故障要求FFR(FunctionalFailureRequirement,TheallowedcumulativefunctionalfailuresovertheTBWrating,即SSD在整个磨损寿命时间范围内累积的功能失效率)这个指标也是AFR和MTBF的另一种表征方式(FFR=AFR*5年,以5年保修期)。
SSD可靠性指标MTTF、MTBF、AFR解析-有驾
根据JESD218的解释,FFR≤3%的要求,等价于AFR≤0.6%,MTBF是1,500,000小时。
SSD可靠性指标MTTF、MTBF、AFR解析-有驾
SSD产品可靠性MTBF≥200万小时,即平均无故障运行超过200万小时,换算为年化失效率AFR≤0.44%。AFR是年化故障率的简称,此处的“年化”一词意味着无论观察期是月、季度等,故障率都将转换为年度评测。
在用户端,一般还会提到累积失效率CFR(CumulativeFailureRate)的概念。CFR的计算需要实际统计在特定时间(可以是月、季度等)的出货量和失效数。2020年1月出货量为X1,2月出货量为X2,依次类推到2021年3月的出货量为X15,在这15个月(10950小时)统计中一共出现N次设备失效:
CFR=N/(X1*15*31*24+X1*14*31*24+…+X15*31*24)*10950hs*100%
RDT,也就ReliabilityDemonstrationTest,产品可靠性测试,是产品测试中通过大样本验证产品的平均故障时间(MTBF),是成本投入非常大的一项测试,也是接近真实使用场景,保证产品在大规模量产的时候不出现规模级别的软件和硬件异常问题。
Memblaze凭借对企业级固态硬盘技术的深入理解,深厚的软件和固件专业知识、故障机制等知识,自研先进的RDT测试平台–Whale系统。
RDT测试参照的JEDEC标准:
RDT跑测采用顺序、随机读写混合IO负载(该工作复杂通过大数据抓取分析,接近真实用户场景),并通过理论推导,得出TBW加速因子对应每天需要的数据写入量,每天连续掉电跑测,对一些重点项目进行严格监控。
通过实测数据来佐证SSD可靠性MTBF≥200万小时,即平均无故障运行超过200万小时。
0

全部评论 (0)

暂无评论