如果已经发货的产品出现问题,以下是一些建议处理的步骤:
接受客户反馈: 一旦客户报告有问题,要及时接受并理解他们的反馈。建议设立专门的客户服务渠道,确保客户能够方便地与你的团队联系。
详细调查问题: 了解问题的具体细节。可能需要与生产团队、品质控制团队和其他相关部门进行合作,以确定问题的起因和范围。
快速响应: 立即采取措施缓解问题。这可能包括提供替代品、进行维修、发放退款或提供其他解决方案,具体取决于问题的性质和程度。
记录问题: 在内部建立详细的记录,包括问题的性质、数量、出现的时间和地点等信息。这有助于将来防范类似问题。
追溯产品: 如果可能,追溯受影响的产品,以确定问题是否局限在特定的批次或生产周期。这有助于快速采取措施,避免问题扩大。
改进流程: 分析问题的原因,找出改进生产、测试和质量控制流程的方法。确保类似问题不再发生。
与供应商合作: 如果问题涉及到供应链中的特定供应商,与他们密切合作以解决问题,并确保未来供货的质量得到改进。
客户沟通: 保持与客户的开放沟通,告知他们问题的解决进展。透明度和沟通可以帮助缓解客户的不满。
遵守法规: 遵循任何适用的法规,特别是如果问题涉及到产品安全或合规性问题。
建立学习机制: 将问题视为学习的机会,确保组织能够从中吸取教训,并制定预防措施,防范未来类似的问题。
总的来说,处理已经发货的产品问题需要迅速、透明和全面的行动。通过及时采取措施,维护客户关系,并改进内部流程,可以降低未来问题发生的可能性。
对于研发团队来说,两件事情非常重要:
1、问题攻关
一旦出现问题,我们需要:弄清问题、复现问题、找到根因、解决问题。
弄清问题: 通过客户服务渠道收集用户反馈,详细记录问题的性质、频率和其他关键信息。弄清楚现场什么情况,是容易被大家忽略的步骤。因为研发人员不般不在现场,碰到客户不满意又比较着急,容易想一些快捷措施来应对客户的不满。但是往往,一些情况是客户自己使用不当、或者错误操作、或者现场环境情况又有很大差异。所以我们需要第一步快速弄清楚现场到底发生了什么。
迅速响应: 立即回应用户,表示理解并感谢他们的反馈。向他们保证你的团队会尽快调查问题。我觉得特别是很多国产芯片厂家,完全没有响应。
问题分类: 对问题进行分类,确定是否存在普遍性问题,还是只是个别用户的个别问题。这有助于了解问题的影响范围。
追溯产品: 如果可能,追溯受影响的产品,以确定问题是否局限在特定的批次、型号或其他特征。这有助于快速识别问题的来源。
实验和测试: 进行实验和测试,以模拟和复制用户报告的问题。这有助于识别根本原因,而不仅仅是表面症状。
紧急修复: 如果存在紧急性的问题,立即提供临时解决方案或紧急修复,以减少用户的影响。同时,继续进行深入的问题调查。
透明沟通: 在整个过程中保持与用户的透明沟通。告知他们问题的根本原因、解决方案的进展以及修复的时间表。
因为世界上没有完美的东西,所以就算再高的水平开发出来的产品也不可能像蒙娜丽莎一样完美无缺。所以不管大问题,还是小问题,都可能有问题。
网上问题造成网上事故,网上问题和单板返还三种后果:
(1)网上事故
最严重的当然是“网上事故”,网上事故一般是造成“安全事故”、“客户损失”、“客户投诉”。等等情况。
最严重的网上问题,自然是“安全事故”,危及客户人身安全。
例如曾经有一个海量级发货的设备,曾经因为修改背板时,动了一条电源线的走线。这个电源线,被修改后,隔着绿油与机框的金属件,碰在一起。由于绿油本身有一些绝缘的作用,所以在研发测试和生产测试的过程中并没有暴露这个问题。
但是由于在运输过程中,震动等原因,造成绿油在此过程中被磨损。在客户出上电后,有的设备出现了短路,发生了烧板的情况。短路示意图如图所示。
液态光致阻焊剂(俗称绿油)是一种保护层,涂覆在印制电路板不需焊接的线路和基材上,目的是长期保护所形成的线路图形,防止焊料流动。
这是非常严重的情况,如果着火,发生火灾,在运营商的机房,那是非常严重的事故。
但是,这种问题发生的时候,已经各种机框和单板发往五大洲,上百个国家。去解救这个问题,付出了非常惨重的代价。
网上事故的另外一种情况,是造成运营商的业务中断;按照话费一分钟0.6元计算,一个省的运营商的用户都是千万级,甚至亿级的。如果造成客户的一分钟的业务中断,带来的损失,如何计算?
正是由于这个原因,所以大多数运营商的设备,都有备份机制。例如核心侧设备的内部交换模块,一定是1+1冗余备份的;如果是DSP资源,一些信令处理单元一般都是N+1备份的。这样如果出现单点故障,既不影响用户业务,也不影响设备的容量规格。
第三种情况,就是客户投诉。有可能虽然没有造成什么严重的后果,如果客户投诉了,这个问题也会比较严重。例如,新机框和新单板邮寄到运营商处。这是出现了,电路板插不进去的情况,自然客户会非常恼火,觉得非常影响公司的品牌形象。那这个事情就会非常大。或者很早以前,任老板在现场的时候,某四川移动的领导,说“你们的设备还不如大唐好看”。于是,结构部的人就倒霉了。
网上问题:
如果网上出了问题,那么一定通过一些手段,例如原先设计好的一些“可维护性”、“可测试性”的软硬件设计,尽量地去定位问题。当然这些措施都不能影响客户的正常业务。
另外,会有一些寄存器,或者一些日志,去查看设备异常的记录。还可以查看一些设备的“临终遗言”。临终遗言,会利用处理器复位前,向存储区域存储的关键信息,便于后续去发现和解决问题。
单板返还:
一线交付的人员一般都会抱怨:“你们研发都是三招:复位,下电,换单板”。
其实网上问题分析,如果已经用上这三招了,那说明这个问题已经比较严重了,或者基本上是硬件问题了。
可是“单板返还率”是非常重要的KPI,决定着大家的“考评”。所以维护人员都希望单板不要返还,或者不要记入指标。如果真的硬件已经不能正常工作了,那么一定会操作这个单板返还到实验室,进行失效分析,找失效原因。
以上不管是哪个级别的问题,哪怕是实验室发现的一些问题,都非常重视。因为如果任何一个问题,都可能造成不可预见的效果。所以对每个问题都刨根问题,分析彻底。
另外就是在做一些试验(EMC、环境),或者在测试的过程中,发现和暴露的问题,都会当做网上问题一样重视,进行一些问题的攻关。为什么呢?
因为有一个理论,问题越早解决,所付出的代价越小。
问题攻关的三个信条:
①凡是“实验室”问题,如果不解决的话,一定会在网上出现。
②凡是出现过的问题,一定可以被复现。
③凡是不能复现的问题,一定是没有找到复现的规律。
案例1、当时有一款NetLogic的处理器(NetLogic的网络处理器来自RMI。RMI收购了处理器创业公司Sandcraft,它本身又被NetLogic购买。后来NetLogic被博通收购),出现了器件失效的情况,但是网上还没有出现类似的情况。
但是,有没有找到规律,是如何让器件失效的。于是双方进入了扯皮阶段。但是通过X光照射,发现失效的器件是焊盘开裂。但是是什么让焊盘开裂呢?当时怀疑了应力,高低温。试了各种措施,但是始终没有答案。
后来大家讨论和试验的过程中,就有同事发现,单纯的低温和高温,都不足以引起器件失效。但是当高低温经历次数过多之后,器件失效的概率明显提高。后来这个同事通过多次试验,反复地使用热风枪和液氮,加速器件的老化。就非常容易出现焊盘开裂的情况。
当拿着这个结论再去找Netlogic时,对方只能投降,承认问题,同意修改器件的工艺。
非常说明问题的两件事情:
①后来实验室出现故障的单板,基本都是厂家改进工艺前的问题。
②另一个发货量很大的产品,在2年后,网上出现大规模这个问题的单板。
案例二、如果在试验中发现问题,一定会把问题分析清楚,或者把问题解决掉。也许这个问题解决很难,经历时间很长。但是这个问题一定把记录下来,根据优先级把问题最后解决掉。
例如曾经一个同事在做试验的时候,发现三极管有漏电流。理论分析之后,由于三极管作为开关管使用,所以理论分析不可能产生这么大的电流,导致电压变化;把三极管更换成MOS管,也无济于事。由于这个漏电流是在低温的时候才会出现的。所以当时就用液氮,让三极管处于极其低温的状态(-10度以下),试验中温度情况也差不多在这个范围(-40度到0度)出现问题。
但是经过两周的试验,都没有找到规律,偶尔会复现一下问题,完全没有规律。我跟那个同事觉得非常费解,当时就观察天气,觉得这个三极管的漏电流感觉与天气有关。如果阴天,就容易复现,如果晴天就完全不复现。通过这个规律,我们开始怀疑“湿度”作祟。
后来,我们通过增加器件的湿度,果然非常容易复现问题。
把我们的结论去找厂家,厂家确认SOT封装的器件,在高湿度低温的前提下确实会有漏电流的现象。这个漏电流不是通过PN节流走的,所以跟PN节的漏电流的规律完全不符合。而是从SOT32的塑料封装上漏走的电流。
后来通过调整电路参数,规避了这个问题。所以整个分析和试验的过程,哪怕是极端的环境条件下的问题,也绝不放过。其实产品的问题攻关,就是这样的,扎扎实实的解决每一个问题之后,产品质量才有试制性的提升。
形式:
① 攻关组:任何问题攻关,为了表示重视,一般都会成立个什么问题攻关组。就是把相关的人,还有有经验的人组织起来,一起参与讨论,这样可以拓宽思路,同时丰富经验。避免钻牛角尖,或者无头苍蝇。
② 例会:重大的问题攻关,一定是每天例会,把前期讨论的问题汇总跟踪,把每项措施对应的结论记录下来,明确下一步的措施。
③ 日报:这种问题攻关,一定是领导重视的,所以每天都会发布进展。当然领导也会看,偶尔也会发现很久没有进展,之后会调配资源,协调兵力。
④ 总结:问题解决之后,一定把中间的九九八十一难,整理成案例、培训,给大家分享。这样所有的同事,虽然没有亲身经历这个攻关过程。可以通过分享,学习相关专业知识,和问题解决的思路。得到提升。
问题攻关是痛苦的,问题突破了也是非常有成就感的,痛并快乐着。最后两句话:越是不舒适区,其实就是你成长的机会。越是困难的时候,越是要咬牙顶住;只要你坚持,你离成功永远都只有一步之遥。
【质量回溯】
用过华为第一代手机,D1、P1、D2的型号的手机的用户都知道:问题比较多,有点小垃圾。即使是后来销售量不错的P6也有各种各样的问题。
但是随着P7、荣耀6、Mate7等新一代手机开始展现,稳定优质表现的时候,迅速在市场上获得好的销量和口碑的时候,你是不是在疑惑:菊花厂是怎么做到的?今天来介绍一个概念“质量回溯”。
质量回溯,这个词,在华为是一个高频的词汇。这个意味着出了质量问题,要打板子(通报批评、黑事件、扣奖金、降级、绩效差)。所有的人员都害怕见到这个词。
(1)质量回溯的概念:
华为公司作为 IPD 流程成功应用的典范,结合 CMM 建立了一系列的使能流程,确保了产品的质量。华为公司作为流程建立的典范,为了持续改进质量管理体系、提高客户的满意度,在公司内部提出了质量回溯的概念。
在降低缺陷的纠正成本、提高产品质量、提高顾客满意度方面取得了一定的成绩,是质量回溯活动成功开展的典型企业。华为公司的成功经验,不仅能让准备开展质量回溯的企业看到希望,也能获得开展该项活动的经验;同时,通过统计分析,总结质量回溯活动开展以来的情况,对当前阶段的问题进行根因分析,对完善华为公司的质量回溯体系做出一点探讨,供后续企业借鉴,以免再犯同样的错误。
通过质量回溯制度的建立,将华为公司以前一些零散的改进流程和应急处理流程串接在一起,形成了一个系统的体系。例如:原来华为公司某个产品组发现使用的芯片存在一个 BUG(即设计上造成的缺陷),只能通过邮件知会其他的产品组;收到邮件的产品组才会去确认本产品组是否有同样的问题。至于是否知会其他产品线,其他产品线有没有对使用相同芯片的产品进行排查,没有流程进行跟踪和保证。在建立质量回溯体系之后,就可以在改进措施推广的环节明确要求发现问题的项目组必须及时知会其他的项目组,并且需要接收知会的项目组反馈回执,才能确认该环节完成,流程才可以关闭。如此可避免人为(管理)的因素导致遗漏。并且以前发现的外购芯片 BUG 没有数据库进行存放。现在有了质量回溯电子流,可以将发现的外购芯片 BUG 的现象、应急处理措施和有效规避措施都记录下来,为产品后来的改进或新开发提供参考。
质量控制是前向的、和流程相结合的过程,而质量回溯则是后向的过程。质量控制的目的是为了保持质量水平;质量回溯是为了提高质量水平。只有增加了质量回溯,质量体系才完善,才能形成闭环,和质量控制一起共同保证产品的质量。有了质量回溯的流程,才能真正地保证质量体系持续改进。
如果项目出了问题,不论是进度方面,还是质量方面,都没有合理的奖惩制度,并且没有做好回溯工作,不分析根因,责任不到户,大家自然就不在乎进度也不在乎质量。
例如:有些初创型公司,就是糊里糊涂的过,一开始设定“项目交付日期”,这是发现大家没有动力,不在乎这个时间。然后“项目交付日期”设置为“dead line”,搞不定就滚蛋,搞得好来点奖金。但是那个奖金又没有与市场价值对等,而且分到每个人手里,又没有多少。当deadline临近的时候,发现根本完不成任务,于是deadline一变再变,因为把大家开掉了,就没有人干活了。因为说过的话不作数,所以威信扫地,再也没有人在乎所谓的deadline,因为根本死不掉,也发不了财。
(2)质量回溯的目的
质量回溯活动的根本目的是增强客户的满意度。质量回溯通过质量管理体系的持续改进,进而完成过程的持续改进,从而推动产品质量持续改进,实现增强客户满意度的目的。
FRACAS ,是“Failure Report Analysis and
Corrective Action System” 的缩写,是“故障报告、分析及纠正措施系统”。利用“信息反馈,闭环控制”的原理,通过一套规范化的程序,使发生的产品故障能得到及时的报告和纠正,从而实现产品可靠性的增长,达到对产品可靠性和维修性的预期要求,防止故障再现。
FRACAS 是一个工作系统,建立并有效运行 FRACAS 是实现产品可靠性增长和提高产品质量的重要手段。它既有纠正已有故障的现实意义,又能对未来新产品发生类似的故障起到预防的作用。另外,通过 FRACAS 的运行,还可以积累大量处理故障的实践经验,对类似产品的改进与设计(如FMEA,Failyre Mode Effects Analysis,故障模式影响分析)提供可供参考的信息,起到“举一反三”防止其它产品出现类似问题的作用。
质量回溯是FRACAS 系统中的一部分,主要是针对有代表性的问题,进行故障分析、数据采集,找到根本原因,并且制定相应的纠正/改进措施,实施后进行验证和推广。进而达到花费相同的时间和资源,能够获得产品更高的可靠性;或者在相同的可靠性要求前提下,为企业节约经费,缩短开发和生产时间,为企业提高效益的目的。
(3)根因分析是质量回溯活动核心环节
查找根本原因的过程,就是根因分析。根因分析是质量回溯活动最核心、最困难的环节,只有找到问题的根本原因,才能从根本上对我们的工作进行改进,从而持续满足顾客对我们的要求。根因分析正确,才能保证历史积累的数据正确,才能正真指导后续开发或改善此类问题。根因分析的具体步骤如下:
① 对收集到的问题的客观数据进行分析和讨论;
② 讨论时可以采用“头脑风暴法”、“层层追溯法”等工具,保证讨论的充分性;
③ 对讨论结果进行归纳,形成“原因逻辑树”,找出问题的根本原因。
根因分析常用的工程方法主要包括查检表、鱼骨图、柏拉图、直方图、散布图、控制图、数据分层法、5W1H、头脑风暴法和层层追溯法(5WHY)等等。运用这些工具,可以从经常变化的生产过程中,系统地收集与产品质量有关的各种数据,并
用统计方法对数据进行整理,加工和分析,进而画出各种图表,计算某些数据指标,从中找出质量变化的规律,实现对质量的控制。
所谓5why分析法,又称“5问法”,也就是对一个问题点连续以5个“为什么”来自问,以追究其根本原因。虽为5个为什么,但使用时不限定只做“5次为什么的探讨”,主要是必须找到根本原因为止,有时可能只要3次,有时也许要10次,如古话所言:打破砂锅问到底。5why法的关键所在:鼓励解决问题的人要努力避开主观或自负的假设和逻辑陷阱,从结果着手,沿着因果关系链条,顺藤摸瓜,直至找出原有问题的根本原因。
丰田汽车公司前副社长大野耐一曾举了一个例子来找出停机的真正原因
问题一:为什么机器停了?
答案一:因为机器超载,保险丝烧断了。
问题二:为什么机器会超载?
答案二:因为轴承的润滑不足。
问题三:为什么轴承会润滑不足?
答案三:因为润滑泵失灵了。
问题四:为什么润滑泵会失灵?
答案四:因为它的轮轴耗损了。
问题五:为什么润滑泵的轮轴会耗损?
答案五:因为杂质跑到里面去了。
经过连续五次不停地问“为什么”,才找到问题的真正原因和解决的方法,在润滑泵上加装滤网。如果员工没有以这种追根究底的精神来发掘问题,他们很可能只是换根保险丝草草了事,真正的问题还是没有解决。
5WHY不是问5次为什么,也不是问5个为什么,而是不断地挖掘更深层次的为什么。
(4)质量回溯的步骤
质量回溯是研发QA工作的一项重要工作内容。所谓质量回溯,是对重大的产品质量问题进行责任追溯,确定组织、流程的质量薄弱环节或人为不规范,要求限期纠正,在此活动中树立和提升研发全员质量意识。
所以,我们在这个流程中,看到,通过现象,一定挖掘出“组织、流程的质量薄弱环节或人为不规范,要求限期纠正”。并且在这个过程中挖掘出好的优秀推行方法,举一反三。下面看两个案例。
案例一
在我经历的质量回溯中,在我刚进入华为的时候有一个质量回溯影响深刻,项目有个电路板,电源启动到一半就掉电。在质量回溯过程中,发现在PCB检视这个环节,检视意见数刚刚达到华为公司的要求下限(按照整个公司的平均值进行设置上下限)。
而且在实际操作中,这个项目,我知道在制作度量表的时候,统计PCB检视意见的时候,发现数量不够,就从邮件中找一些意见进行凑数,并且把一些重复问题也没有进行处理。所以,看似检视意见的统计是一个统计值,但是如果刚刚达到下限,也是说明对PCB电路的检视程度是不够的。
案例二
另外一个案例是,我们一个多核DSP项目交付,统计PCB检视意见的时候,发现数量远远超过了公司规定的上限。为了能够通过技术评审点,实际操作的攻城狮,也优化了这个度量参数。结果,回板之后,发现一个电容放在了禁布区。后来质量回溯,确实是执行布局布线的互连工程师技能不足,但是互连部在杭州刚刚建立,老员工对电路板投入不足。如果在投板前,就把这个问题提高高度,并提高重视的话,一定能够提高大家的重视程度,换人,或者继续加大检视力度,也许就可以规避问题。所以这个质量回溯,在组织、流程上面都发现了问题。
(5)持续改进意识
有些初创型企业,由于追求细节的完美,一个版本还没有交付,就废弃原有的版本,另起炉灶。在大公司也有类似于这样的问题,经常喜欢做改革派。如果说大公司往往为了体现新领导有作为,或者政治导向,那么小公司这么反复的做返工的工作,不是智商有问题,就是思路不清晰。
其实,有问题解决问题,不在原有的基础上前进,那么前人走过的错路,和陷阱,你仍然会再经历一遍。所以持续改进,有两层含义:既往,开来。
任高露洁公司CEO长达20余年的鲁本·马克说过一番话:“企业领导人应将公司的业绩看成是一 条贝尔曲线 , 曲线的左边代表非常差的业绩 , 右边代表非常优秀的业绩,大多数公司都是位于曲线的中间部位,管理者的任务就是要不断地逐步改进 , 使整条曲线
向右移动。这个过程既非革命性的,也不会引人注目,但只要持之以恒,企业就能取得成功。”
质量回溯就是重要的持续改进的手段。是一种上升到一定严重级别的持续改进。其实你的公司现在什么水平不重要,而重要的他是不是每天都在进步。