【收藏】如何提高硬件的可靠性,这篇全了!

百科   教育   2024-12-21 22:54   浙江  

关于硬件的可靠性,我们写了很多文档,也输出了响应的视频课程。同时也给很多对可靠性要求高的企业进行了可靠性设计的相关培训。

虽然做了很多工作,但是可靠性是个系统性的工程、跨学科的领域。大家操作起来总觉得缺乏思路,也觉得知识点比较零散。我们正在准备中国电子学会_硬件工程师_可靠性(高级)的课程。所以正在对整理做更系统的梳理和总结。

也希望大家给我们提供意见和建议。所以我们也希望做一个完整的、系统的梳理。然后从方法论的角度,对大家梳理思路,能够清晰的入手可靠性提升的工作。

一、用理论的方法对系统可靠性进行预计,并且找到薄弱点。

这个是很多可靠性公司或者咨询公司,喜欢入手的方法。但是很多硬件工程师会觉得,这个方法不够落地,整了很多数据,实际没有什么作用。

正是因为工作量大,与实操可靠性提升缺乏线性指导关系,导致大家觉得没用。但是我们真正要做好可靠性还是需要从这个维度入手。我们从理论分析时,需要做如下工作。

Ø  建立可靠性模型

串联模型:组成产品的所有单元中任一单元发生故障都会导致整个产品故障

并联模型:组成产品所有单元同时工作时,只要有一个单元不发生故障,产 品就不会故障,亦称贮备模型

表决模型:组成系统的n个单元中,正常的单元数不小于r(1≤r≤n)系统就不会故障,这样的系统称为r/n(G)表决模型。






Ø  可靠性分配

在产品设计阶段,将产品的可靠性定量要求按规定的准则分配到规定的产品层次的过程。

可靠性分配的目的:

将整机可靠性要求分配到各组成单元

明确设计时对各组成单元控制的重点

Ø  可靠性预计

通过将整个硬件系统进行拆分,从每个可以提供失效率的单元,按照模型进行计算,得到整体的失效率。

所以我们需要经历:建立模型→分解部件→预计可靠性是否满足需求→找到可靠性的短板→优化(模型优化,系统级优化,模块级优化,器件级优化)。


在实操过程中,大家担心的是:

1、很多器件的失效率无法获得。缺少一个数据可能导致结果不准确。

2、很多数据并不准确。

3、计算量巨大,但是与实际数据相差甚远。


但是,我们通过计算,可以找到短板,同时可以从理论评估是否满足失效率需求。需要我们企业累积的去投入,形成数据积累和工具积累,在每个项目的时候的重复劳动避免,则大大提供效率和准确度。

二、评估设备的组件会怎么失效,失效之后会有什么后果。

这个方法其实就是FMEA

•FMEA:Failure Modes and Effects Analysis,失效模式与影响分析。讲白点,就是通过“想”和穷举法,一一考虑各个器件(组件)可能会怎么坏掉?坏掉之后有什么影响,分析分析,看看软件、硬件层面,有没有什么手段和措施能够检测、解决、隔离、恢复 这个问题。

指在产品的设计过程中,通过对系统各组成单元潜在故障模式对产品功能的影响分析,或对系统功能流程各个步骤,数据流和存储各环节失效后对产品影响分析,把每个潜在故障模式按影响严酷程度分类,提出预防改进措施,如故障检测、故障隔离、故障恢复等软硬件故障管理需求及测试验证需求,以提高系统的可靠性可维护性的分析方法。

FMEA 是一种自下而上的方法,用于分析一个系统设计或制造过程,以评估潜在的失效和影响。

FMEA的基本思想:遍历性、系统性。

我们可以在很多FMEA的教材上面看到这两个概念:遍历性、系统性。那么这两点在硬件设计的过程中是如何体现的呢?

FMEA的分析方法:

硬件法,从硬件的角度,对每个器件管脚输出分别去考虑故障模式、故障影响、检测补偿措施。(因为我们遍历了每一个器件、每一个器件的每一个管脚,所以这里体现了遍历性)

功能法,每个产品可以完成若干功能,而功能可以按输出分类。这种方法将输出一一列出,并对它们的故障模式进行分析。对应系统级、单板级分析。(此处按照功能和场景,对故障模式分别进行遍历和分析)。

我们在实现FMEA的时候,需要提升产品的可测试性,同时需要一些软件、硬件方法,对部分故障单元进行记录、复位、下单,等操作。

三、测试+实验方法

这就是用事实的方法来判断产品是否满足可靠性要求,并且来寻找产品可靠性的短板。

既然很多同学不相信方法一、和方法二。计算为虚,实验为实。真刀真枪上试验台,看看产品是不是扛得住折磨,特别是正式量产之前,要足够样本对可靠性进行摸底。

所以,我们经常需要做的一件事:拷机。

这里不是烤鸡,而是针对产品特性进行长时间工作测试,看看经不经得住考验。例如上图中,折叠屏手机,需要机械装置对其进行反复操作。

当然这个方法太慢了,我们需要对设备的寿命检验进行加速。我们一般采用的方法就是加大“应力”——热应力、机械应力、化学应力、电应力。


此处涉及内容比较多,各个行业有各个行业的实验标准,此处暂时不赘述。

但是实验是最真实可靠的检验标准。


四、故意搞破坏

这个方法就是为了检验我们产品,我们做故障注入的方法——FIT(

fault injection techniques 故障注入技术)。这个方法也是验收方法二(FMEA)的标准。


我们在设计阶段,就把FMEA的需求做好,然后在设计过程中,就考虑到FMEA的需求。同时设计好,最后怎么验收,也就是FIT测试的方法。

所以故意搞破坏,也要是有的放矢的搞破坏,不是想一出是一出。记得有测试人员说她的发卡掉到电路板上了,电路板掉电不能恢复。但是,无法复现,也不知道具体什么故障模式。FIT测试也是设计出来的,不是随意试出来的。

FIT方案设计基于两个原则:

一是保证测试的覆盖率

二是保证测试工作量的可执行性

用例设计中考虑故障出现的概率(根据FMEA分析结果)。对可能产生同一种影响的不同故障考虑故障模式的收敛,即只模拟一种故障模式(前提故障检测是通过检测这些故障模产生的故障影响来确定故障,而不是直接检测故障模式)

五、防护设计

我们针对故意搞破坏的,还有应力,需要有针对性的做一些设计:热设计、结构设计、化学防护设计、EMC防护设计(防雷击、防浪涌、ESD)等等。

热设计

(1)热设计的主要设计方法

(a)传导散热设计。如:选用导热系数大的材料,加大与导热零件的接触面积,尽量缩短热传导的路径,在传导路径中不应有绝热或隔热件等。

(b)对流散热设计。如:加大温差,即降低周围对流介质的温度;加大流体与固体间的接触面积;加大周围介质的流动速度,使它带走更多的热量等。

(c)辐射散热设计。如:在发热体表面涂上散热的涂层以增加黑度系数;加大辐射体的表面面积等。

(d)耐热设计。如:接近高温区的所有操纵组件、电线、线束和其它附件均应采取防护措施并用耐高温材料制成;导线间应有足够的间隙,在特定高温源附近的导线要使用耐高温绝缘材料。

热设计基础(上)

热设计基础(中)

热设计基础(下)

环境防护设计(三防)

(1)防潮湿设计

采取具有防水、防霉、防锈蚀的材料。

提供排水疏流系统或除湿装置,消除湿气聚集物。

采取干燥装置吸收湿气。

应用保护涂层以防锈蚀。

憎水处理,以降低产品的吸水性或改变其亲水性能

浸渍,用高强度和绝缘性能好的涂料来填充某些绝缘材料。

(2)防盐雾腐蚀设计

 防止盐雾导致的电化学腐蚀、电偶腐蚀、应力腐蚀、晶间腐蚀等。

(3)防霉菌设计

采用防霉剂处理零部件或设备。

设备、部件密封,并且放进干燥剂,保持内部空气干燥。

在密封前,材料用足够强度的紫外线辐照,防止和抑杀霉菌。

另外还有一些,例如防硫化、防氧化、设计等。

抗冲击、振动和噪声设计

(1)抗冲击、振动和噪声设计的主要方法

消源设计。如:液体火箭发动机的振动是导弹的一个主要的振源,通过消除发动机不稳定燃烧、改变推力室头部喷嘴的排列和流量,减小其振源,就能降低导弹振动的等级。

隔离设计。如:采用主动隔离或者被动隔离方法将设备与振源隔离开来。减振设计。如:采用阻尼减振、动力减振、摩擦减振、冲击减振等方法消耗或者吸收振动能量。

抗振设计。如:改变安装部位;提高零部件的安装刚性;安装紧固;采用约束阻尼处理技术;采用部件密封;防止共振等。

六、故障分析(失效模式与失效分析)

包括系统故障分析,以及器件失效分析。按照不用的层级,我们需要做不同深度的维度的失效分析。

器件选型时,我们需要考虑其失效模式,同时需要考虑其失效机理。如果发生失效了,我需要做好器件的失效分析。


需要了解失效分析,可以点击查看,之前的文章合集:  失效分析合集

七、硬件稳定性相关的电路设计

很多工程师觉得,如果这个没做好,或者没有做到,根本就不是合格的产品。前面说的六条都是浮云。

冗余设计

降额设计

单板上电、复位设计

信号完整性

电源完整性

逻辑电平设计

等等

八、管理

管理这两个字,有时看似很虚,但是通过管理,我们可以把人本身的不稳定因素剔除掉,避免因为人犯错误导致的不可靠。

这里包括研发管理、生产管理、物料管理、流程管理等等。我们后续通过文章和视频进行详细的介绍。


想了解可靠性在线视频课程,点击↓

【在线培训】硬件工程师(单板电源设计)中级


欢迎大家补充相关内容,点击《写留言》,留下你的想法。

硬十
热爱技术,乐于分享
 最新文章