![]()
风险辩识和控制从来就不是一蹴而就的,是一个持续迭代的过程,关键技术、产品,新技术、新产品容易成为风险点,而那些容易被忽视掉并且未开展深入工作,未进行充分验证的环节,也最容易成为风险点,项目团队的精力有限而风险点无限,因此需要拆分,之后于各个过程中分而治之,只有个别的需要刻意为之,否则就会一团糟。
而风险的辩识是有套路的,不能依赖于简单的头脑风暴,也不能经验主义和单纯的问题导向,因为环境在变、条件在变,人员也在变……
《航天型号出厂评审》(Q/QJA14.1B-14.6B-2019)中专门规定了“风险识别、分析与控制专项评审要求”,在其中详尽地规定了参加飞行试验的航天型号出厂风险识别、分析与控制专项评审的一般要求、评审条件与内容、评审的组织与管理、评审实施和评审结论报告等要求。 ①型号风险管理计划执行情况;
②型号风险识别、分析与评价情况;
③型号残余风险评估结果;
④型号后续发射准备阶段、飞行试验阶段及在轨运行阶段的风险管理策划及准备情况(风险评估情况、风险管理职责落实情况、应急处置流程及在轨故障应对预案有效性验证情况);
⑤型号出厂风险评价结论。
以下本文技术风险分析的工作依据和流程进行阐述,为该专项报告的编写提供一些借鉴:
在以往型号该专项报告的编制过程中,工作依据主要有以下: ① 各层级的要求、红头文件【不要小瞧红头,其中不乏诸多针对性、可行性的要求】;
② 研制类质量标准和管理标准,如:质量控制要求、归零要求、不可检测项目识别与控制、单点项目控制、“六性”要求、软件工程化要求、极性、供应商管理等诸多要求;
③ 型号研制的“六性”/“七性”大纲;
④ 天科质【2013】80号《航天型号技术风险分析和控制要求》【这是最具指导性的风险分析的顶层要求】一般型号会遗漏各层级的风险识别与管控标准,大概有如下: ① GJB8892.28-2017武器装备论证通用要求第28部分:风险评估
② GJB 5852-2006装备研制风险分析要求
③ GJB/Z 171-2013武器装备研制项目风险管理指南
④ GB/T 27921-2011风险管理风险评估技术
⑤ GB/T 24353-2009风险管理原则与实施指南
⑥ GB/T 32299-2015航天项目风险管理
⑦ Q/QJA 632-2018运载火箭技术风险全过程管理及评估要求
⑧ Q/QJA 670-2018航天器技术风险管理要求
⑨ Q/QJA 763-2022液体火箭发动机技术风险分析指南
⑩ Q/QJA 66-2010航天产品工艺风险分析
⑪ Q/QJA14.1B-14.6B-2019《航天型号出厂评审》
以上标准一般都要给出了风险辨识、控制、管理的具体要求,对于实际工作具有一定的指导性,尤其是行业标准和院级标准,建议进行较为细致的比对和参考【实际上研究院层级一般是按照院标开展此项工作,院标中也是落实了各层级风险管控的具体要求】。
![]()
一般而言,运载火箭发射任务风险项目接受准则:综合等级I、II、III级可接受,综合等级IV、V不可接受。
![]()
![]()
![]()
![]()
很少 b 很少发生,发生概率0.01%≤p<0.1%
少 c 偶尔发生,发生概率0.1%≤p<1%
很可能 e 很可能发生,发生概率p≥10%
可以看出,风险项目的判定属于定性定量化的过程,因此在操作过程中会引入风险综合评价等级的不准确,或者说随意降低风险的评价等级。实际上,针对风险严重程度和发生可能性,需要针对具体型号进行具体分析,以下就典型产品及环节举例分析:
①分析维度(1):历史故障次数(本单位类似产品):n可以取近几年同类型产品交付后质量问题平均数发生可能性等级:
a:0次;b:n次;c:n+1次;d:n+2次;e:n+5次或以上③分析维度(3):新技术/新材料(含器件)/新工艺a:无,或者有,经过其他型号飞试验证+地面试验验证考核真实且充分b:有,未经过其他型号飞试验证+地面试验验证考核真实且充分c:有,未经其他型号飞试+地面试验验证考核不充分d: -; e:-
...... .... ........
①分析维度(1):历史故障次数(本单位类似产品):
n可以取近几年同类型产品交付后质量问题平均数发生可能性等级:
a:0次;b:n次;c:n+1次;d:n+2次;e:n+5次或以上
a:1.0及以上;b: -;c:-; d: -;e: -
③分析维度(3):新技术/新材料(含器件)/新工艺a:无,或者有,经过其他型号飞试验证+地面试验验证考核真实且充分
b:有,未经过其他型号飞试验证+地面试验验证考核真实且充分
c:有,未经其他型号飞试+地面试验验证考核不充分d:-; e: -
①分析维度(1):历史故障次数(本单位类似产品):
n可以取近几年同类型产品交付后质量问题平均数发生可能性等级:
a:0次;b:n次;
c:n+1次;d:n+2次;
e:n+5次或以上
a:内部指定单位;b:外部具备资质的单位;c:-;d:-;e:-
4)产品/部件/模块类别4:电子元器件
①分析维度(1):故障模式发生概率
a:P≤10^(-6);
b:1×10^(-6)<P≤1×10^(-4);
c:1×10^(-4)<P≤1×10^(-2);
d:1×10^(-2)<P<1x10^(-1);
e: P>10^(-1)
③分析维度(3):元器件质量等级(按GJB299C)a:I级降额;b:II级降额;c:III级降额;
d:未采取;e:-不予接受
5)产品/部件/模块类别5:结构零部件
分析维度:新技术/新材料(含器件)/新工艺
a:无;或者有,但经过地面试验验证考核真实且充分;
b:有,且未经地面试验验证考核;c:-;d:-;e:-
6)产品/部件/模块类别6:运动副
①分析维度(1):材料相容性
a:材料性能不同;b:材料性能相近;c: -;d: -;e: -
a:采取防多余物措施;b:未采取防多余物措施;c:-;d:-;e:-
③分析维度(3):高低温试验考核
a:已进行;b:未进行;c: -;d: -;e:-
7)类别7:某专项技术
这才是考验风险分析和辨识能力的真正所在。
技术的最终依托是具体的系统/产品/软件,因此所有均可以指向具体产品的研制生产、试验验证的充分性。因为技术实现构成环节的复杂性,在进行发生可能性综合分析时,可以参照可靠性模型中串联模型和并联模型,其中对于可量化的可以进行计算,如元器件的失效率、通信的误码率,一般而言,这些环节计算的结果会落在a极少或b很少区间,而对于不能直接进行计算的则需要进行相关维度的细分:
①分析维度(1):系统冗余技术的采取
a:有冗余;b:无冗余;c: -;d:-; e: -
②分析维度(2):试验验证充分性
a:有其他项目应用实践+地面试验验证充分,无不覆盖环节;
b:无其他项目应用实践+地面试验验证充分,无不覆盖环节;
c:无其他项目应用实践+地面试验验证充分,有不覆盖环节;
d:-; e: -
③分析维度(3):地面精细化仿真验证的充分性
a:仿真试验验证充分,无极限偏差下的不满足;
b:仿真试验验证充分,有可接受的极限偏差下的不满足;
c:仿真试验验证不充分;d:-;e:-
8)类别8:操作风险
①分析维度(1):操作规程
a:有细化、量化的操作规程;b:操作规程不细化、不量化;
c:无操作规程;d:-;e:-
②分析维度(2):操作空间
a:操作空间友好;b:操作空间不友好;c:-;d-;e:-
③分析维度(3):人员资质和成熟度水平
a:具备资质,有三年以上工作经验;
b:具备资质,工作经验不满三年;
c:新人员;d- ;e:-
9)类别9:管理风险
①分析维度(1):分工及责任落实
a:分工明确;b:工作分工中耦合环节多,例如相互配套环节多;
c:-; d-; e:-
②分析维度(2):产品配套层级
a:产品配套层级少;b:产品配套层级合理,但配套环节相对较多;
c:产品配套层级多;d-;e:-
③分析维度(3):计划制定合理性
a:计划合理,且留有一定余量;b:计划合理,但无余量;
c:计划不合理;d-;e:-
④分析维度(4):资源配置合理性
a:资源配备充足、协调;b:资源配备存在缺失;
c:与其他项目存在配备存在冲突 ;d-;e:-
⑤分析维度(5):与相关方的沟通协调完备性
a:沟通协调充分,无保留工序和遗留工作;
b:存在研制过程、任务过程相关环节的未确认和未协调,有保留工序和遗留工作;
c:- ;d-;e:-
意思很明显,假设某系统/技术构成环节为5,假定为灾难性后果E,根据风险评价矩阵结果分别为Ea、Eb、Ec、Ed、Ee,则最终该系统/技术/产品的风险综合评价等级应该为V,极高风险,即各环节是或的关系。
在实际风险辨识过程中,很少会这样做,因为整个风险的辨识还是基于最初的关键技术攻关、以往技术/产品的成熟度来进行判定的,特别是在技术风险层面。
但对于整个大系统的风险判定则可以依照此进行,这个是不言而喻的,3个III级,4个II级,则大系统的综合评判等级至少为III级,至于要不要升级,这个还是以综合判定为准,如果III级的发生概率较低,则不予考虑。
PS:
比如针对灾难型(E)后果,就会发现无论发生概率怎么降低,在风险矩阵评价中最低风险也就是III级,这也就是为什么III级风险为什么可以通过评审的根本原因所在。 有人会问,能不能真正降低,灾难性后果(E),直接降低为严重后果(D),除非像马斯克那样采取了并联技术——发动机并联技术,三两个出现问题也就是二度故障和三度故障下是安全的,则该风险【发动机故障】的影响严重程度是可以降低的。再向上一层,之于发动机并联技术这一风险,则一定是灾难性后果(E),无论并联多少个,一旦超出了可接受的损坏发动机数量,则一定是灾难型,无论发生概率有多低。 此处也就引出了风险辨识的维度和层级的问题,单纯的器件级、部件级意义不大,至少是整机产品级、分系统级、某项专项技术,如末制导技术、抗干扰、突防诸如此类的系统性风险,而对于器件级,则是失效概率的统计,由此也就可以给出极高的可靠性预计值。
![]()
《装备研制风险分析要求(GJB5852-2006)》对风险进行了定义,即“在规定的技术、费用和进度等约束条件下,对不能实现装备研制目标的可能性及所导致的后果严重性的度量”。为了能够全面、充分的识别型号风险,并有针对性的采取相关控制措施,将风险分为以下四类:1)技术风险:在设计环节涉及各项产品、参数设计正确性相关的风险;
2)产品风险:产品工艺、生产、测试、检验等过程相关的风险;
3)操作风险:总装、测试、吊装、转运等环节由于操作引起的风险; 4)管理风险:管理流程、组织机构实施、与外系统协调等方面的风险。
之所以聚焦此四类风险,是因为在以前工程研制过程中,涉及到此类风险的环节会经常性地出现问题。
其实技术风险的最终载体在于产品,硬件产品和软件产品的集合,也就体现出系统工程内在的关联性和构成的复杂性特点,牵一发而动全身。
以下不再展开。
4、风险分析流程
一般项目会针对根据各类风险的特点,从技术、产品、操作、管理四类风险分别以技术成熟程度、过程质量控制、量化检查确认、管理规范完善为抓手,形成了各类风险分析的识别要素,并由此制订相关的风险线索。
1)技术风险
表5技术风险分析的识别要素
![]()
具体内容:是否有已有型号从未使用的技术和状态。
风险线索:新技术、新材料、新环境、新状态、新元器件等。
首次应用,关注国产化器件的替代,对于硬件设计、软件设计甚至于工艺操作都会产生较大的影响,其实这里面包含的还有就是首次应用的配套单位之于技术要求、管理要求、质量要求的理解和落实,这些都会转化为技术风险和产品风险。 具体内容:是否开展了充分仿真分析和试验验证。
风险线索:接口设计正确性、时序链路匹配性、试验充分性及四不到四到。
试验不够,这是技术风险转化为问题的真正原因,天地不一致、工况不覆盖、边界验证不充分、强度测试不够,需要关注的是试验项目和设置和测试用例的制定。 风险线索:I、II类单点故障、可靠性、安全性、故障预案、设计裕度。裕度和余量,以适宜为准,过犹不及,实际上在最关键层面,比如运载火箭的姿态控制层面,裕度和余量是要充分保证的,无论是怎样形式的保证,多少dB或者是概率,就如同客机飞控的裕度一样,关乎生死和成败的,一定不能打折扣。④专家意见
具体内容:是否有复核复算专家意见未落实。
风险线索:设计复核复算及独立评估实际情况,专家意见落实和闭环情况。
专家意见,可以见很多端倪,尤其是设计以及工作充分性层面的,一旦提出,要对照进行深入分析。
具体内容:是否有过重大质量问题。
风险线索:借沿用产品、技术的历史问题,设计质量问题;研制过程中问题较多的产品和技术。
历史故障,说明技术和产品成熟度不够,说明管理水平低下,说明问题还会出来。
⑥相关方多
具体内容:是否有过重大质量问题。
风险线索:借沿用产品、技术的历史问题,设计质量问题;研制过程中问题较多的产品和技术。
相关方多,这是所有技术问题的一个重要源头,相互配套,技术要求传递、分解不到位,自我认知较高,细化工作开展不够,容不得质疑,有此类情形的技术和产品,一定会存在较多的问题。
![]()
![]()
具体内容:是否存在首次在产品生产环节中应用的状态。风险线索:新工艺、新设备【全新研制】,包括生产厂家的更换;首次生产,更多的在于制造成熟度问题,在于工艺层面,工艺的细化量化,在于工艺的一致性层面。超差,到底是怎样的超差,要求过高的超差尽早关闭,生产制造不当引发的超差严格控制,不得使用。风险线索:可测试性,测试覆盖性【工况级测试、边界测试<性能拉偏>】、软件正确性、焊缝质量,以及相关特殊过程。检测不到,并不是所有的环节,而是指在本环节完成后无法检验检测,那么就需要聚焦上一流程的检验检测和量化控制。④性能不稳
具体内容:是否在研制过程中出现多次故障或者存在性能不稳定。风险线索:产品质量问题、测试数据一致性,产品性能参数的起伏,包括产品合格率的较大差异。性能不稳,则代表了产品设计和生产制造的低下,以及检验、检测工作的不有效。风险线索:最终使用状态:遗留工作是否均已完成,是否有保留工序。验收遗留,为什么遗留,哪一项试验未完成,哪一项指标的不闭合,前者可以容忍,后者绝对不能放过。 具体内容:国产化替代的占比和验证,国产化器件性能参数差异性风险线索:国产化替代原器件的鉴定,验证,其他应用场合出现的问题数。国产化替代始终是一个问题,可以不放心,但必要的验证必须要开展,针对性的测试要有。 ![]()
3)操作风险
![]()
其次就是操作空间有限,实施困难,检验困难,其实这是设计问题,出现此类问题时,相应设计师系统应该反思。第三就是口令操作的不落实,双岗和多岗职责不落实,形同虚设或者一人全包。很多确认的环节你看我看大家看,其实已经错了,却认为前面的确认完了,一定不会有问题,草草了事。第四就是返修,这个环节需要关注,一些返修实际上难以根除,所以返修时要注意返修流程和工艺的准确性和可操作性,特别是手工环节的一些量化控制措施,包括器件焊接、解焊的次数等情形。还有结合社会上的一些舆情事件,可能更多的都是新人员或者是社聘人员犯事儿,这个也是有一定道理和可能的。这里面要特别关注老人员的新岗位。所以务必关注操作规程,执行,操作空间,岗位人员以及相关要求。风险线索:新岗位、新人员;首次配装,在应用前未见面。首次操作,主要是工艺层面以及大结构部件的安装和调试,比如新型液体火箭发动机的安装,新型固体火箭发动机的喷管、喉衬的装配,以及过程中新的特殊工艺过程。这里面有一个比较关键的就是首次见面设备的安装和调试,配装前要严格比对图纸,关注可能存在的不匹配、磕碰、磕伤等风险。具体内容:是否存在由于具体实施过程困难带来潜在隐患。
风险线索:紧固件力矩量化控制、接插件连接质量确认;操作空间狭小;
操作实施后检验、检测不便于实施。
实施困难是系统设计不足的表现,也就是设计之于工艺,工艺之于生产工程的指导性层面,或者说转化层面的问题,一旦源头存在短板,则后续会麻烦不断。确实无法规避的,一定要有具体可操作的检验、检测措施和手段,如果没有,存在问题的风险极高。
③易错易漏
具体内容:是否存在易错易漏的重要操作。
风险线索:易错易漏操作:接插件接插,极性确认,飞行方向与设备安装方向;
一个正向的例子:飞机起飞前工具箱的工具数量的检查;火箭起飞前短路保护插头的数量定位式清点。
一个反向的例子:同类型接插件插混,针孔出现针对针插接,这些源于设计问题,表现为操作类问题。
④质量问题
具体内容:是否在该类操作环节有过典型操作质量问题。
风险线索:操作质量问题及典型质量问题:吊装,安装错误,极性错误等常发性质量问题;
此环节若经常性出现问题则说明要么规程不完备,要么有章不循,要么检验检测不到位,要么测试的手段缺失。
⑤单岗操作
具体内容:是否存在没有检验和二岗确认的操作。
风险线索:单岗操作,流程中有无口令应答式确认;
遇到的典型问题1:软件烧写版本错误,关键在于本来是双岗操作,确认版本,但是单岗操作,恣意妄为。
遇到的典型问题2:口令式操作,问答之间,确认操作规程和界面显示是否正常,只关注了其中一个,试验状态转换不够,导致产品烧毁。
遇到的典型问题3:火箭模装箭起竖后操作,未按照流程,导致跌落;
遇到的典型问题4:火工品连接后,测试流程选择不对,导致火工品误引爆。
![]()
![]()
风险线索:新单位,体制内和体制外新单位,尤其关注体制外新配套单位和民企。一般而言,首次配套单位会出现形形色色的问题,原因就在于对系统使用工况的不把握,对于软硬件接口理解的不一致,在于单机验证测试之于系统测试的不覆盖,在于技术、质量要求传递的不贯穿,尤其是在产品配套层级较多的前提下,一次配套、二次配套甚至于三次配套,问题集中在二次配套和三次配套单位,当前质量问题集中体现在配套单位,反映的就是要求的贯穿存在问题。具体内容:是否在一年内出现n次以上同类质量问题。【n为可接受的数值或历史上的平均数值】风险线索:问题频发环节,历史上问题多发的产品和配套单位;除了新单位之外,需要关注的就是问题频发的产品及其配套单位,系统工程研制经验表明,某些关键产品一直在出问题,尽管采取了相应的持续措施,问题也未得到根治和改善,这源于产品实现的复杂性和当前的生产制造水平,因此对于此类型产品应该以问题为导向,做好相应措施的落实和改进,最大化预防已经发生过的质量问题。
③条件不足
具体内容:是否存在由于经费、周期、人员等资源限制对型号研制带来重大影响。
风险线索:人员设计资历水平;试验资源保证;研制人员的配备;经费拨付及时性;研制计划的合理性。
实际工程研制过程中,条件的保障诸如人员、试验场地/资源会极大地制约项目的研制进程和过程质量,特别是新人员,除了设计师系统、生产制造、试验操作人员之外,其实不容忽视的是一些装备飞试的一岗操作人员,以及首次担当副总师、技术负责人、行政负责人的人员。
对于装备而言,需要关注的是研制要求、条件的输入,合同的签订,监管协议的签订等,这些环节在很大程度上制约着研制的进程,有可能引入研制进程的迟滞,进而影响到后续节点;同时经费拨付的及时性、计划制定的合理性至关重要,尤其是计划层面,一旦不合理或者急于求成,极容易引入质量问题和风险。
④流程复杂
具体内容:是否有协调关系复杂的环节。
风险线索:流程复杂环节,配套层级多,存在相互配套的情形;相关协调的纸面确认;
主要在于配套关系复杂,层级多,总装流程复杂,保留工序多等。
⑤制度欠缺
具体内容:是否存在制度不完善带来的质量隐患。
风险线索:制度欠缺环节,责任不明晰,责任不落实;
制度的欠缺,反映在责任的不落实,系统性工作的抓总单位不明确,由此会引入诸多问题,特别是在接口的确认,总装环节、交装环节、售后维保环节,引入三不管地带而导致问题发生。
之所以会说到此话题,也就是因为在实际进行技术风险的辨识、控制和分析的过程中,存在一定的随意性,这个不怪设计师队伍,关键就在于定性、定量化操作的空间太大。
其实关于风险的分析、判定,始终是一个难题,同时有另外一个问题,就是辨识为风险的一般比较难演变为问题,而真正的问题发生后,发现原先根本没有顾及到,所以这里就需要关注风险辨识的线索以及项目自身真正的不放心环节,不放心源于之前的问题,源于过程控制的不严谨,试验验证的不充分,工况的不覆盖,天地的不一致。
所以真正要把风险辨识清楚,控制到位,首先要做到的就是以问题为导向,以问题多发单位和环节为重点,同时不要忽略系统性风险。当前我们考虑系统性风险多一些,对于影响到成败的单点模式环节,采取的是传统的控制模式,没有深入到真正的过程,后续节点的测试和检验手段有效或者落实不够,这是需要发散开来的环节。
风险辨识的环节和线索至关重要,所有的环节和线索不要一概而论,要契合产品特点和应用场景、工况,以及项目的配套和资源保障。其实在某项目讨论风险时没好意思提,为什么两总都是新人员,在一定程度上,这是最大的管理风险,怎么化解,相近型号的技术交流、领导的关注和揪住不放,必要的技术支撑队伍,却不是增加一大堆所谓的提要求的领导。最近开了一个出厂会,型号两总和大部分评审专家坐在第二排,队伍技术人员在第三排,我作为管质量的躲在一根巨大的柱子后面,极致地体现了质量的隐性管理,但反思这样是否正常?如果有一天,技术专家和研制人员在第一排,各级领导们坐在第二排,我们有理由相信,这个项目一定能干得很漂亮。
PS2:几个例子(以问题反说风险)
(一)技术风险
![]()
016年到2020年间,波音737-800至少发生了四次严重事故,造成了几百人死伤。2018年10月29日,印尼狮航JT610航班的一架B737MAX8飞机失事,机上189人全部遇难;2019年3月10日,埃塞航ET302航班的一架B737MAX8飞机失事,机上157人全部遇难。为了加快研制进程,波音放弃了价格高昂的研制新机型的方案,而是采用了给老机型737打补丁的方法。它给737换上了燃油效率更高的大引擎,推出了737MAX。然而正是这些737MAX,暗藏着巨大的安全隐患。2013年,当波音公司开始打造737MAX的时候,他们在一架45年前的机体上安装新的庞大的省油引擎。![]()
由于这些引擎过于庞大,所以必须放在离机翼更远更高的地方,这样微小的调整使得飞机在起飞的时候,机身可能会因仰角过高而造成失速(Stall)。为了应对这个问题,MCAS (机动特性增强系统)被设计了出来。它被用来调整飞机的仰角,当它侦测到飞机仰角过高,它就会自动压低机头,帮助飞行员压平飞机。备注:失速是流体力学中的一个概念,是指超过临界迎角(翼型体前进方向与翼型体弦线之间的夹角)后,翼型体后部的流体开始分离,随着迎角的增加,翼型体产生的升力反而减小的现象。失速和临界迎角对于飞机尤为重要,超过临界迎角而进入失速,会导致飞机升力损失,损失过多飞机就会坠落。MCAS系统之所以能够侦测到飞机的飞行仰角,是因为在机身上装有一个迎角传感器,如果这个传感器失灵,它就会向MCAS系统传递错误信号,试图从飞行员手里抢夺飞机的控制权。令人惊异的是,如此重要的MCAS系统,仅仅由一个小小的、非常容易被机外物体撞坏的传感器控制。这并不符合飞机设计的一般准则,即不能有任何关键的飞机安全系统存在单一故障点。 失事飞机上共设有3个攻角传感器,波音失速自动保护系统的控制程序设计很奇怪,其逻辑是只要主传感器认为飞机攻角过高(机头抬得过高),飞机有失速危险,自动保护系统的激活逻辑就可以被激活。而根据Avherald网站分析,空客飞机在类似系统设计中规定:只要三个攻角传感器的读数不一样,不管主次,都选择不相信,直接报错给飞行员,从而避免主传感器出错,导致整个系统出错的风险。软件设计最忌讳对非正常模式或者故障模式考虑不周全、不到位,与空客相比,波音在失速保护系统的控制程序设计方面似乎存在bug。
安装在失事飞机上的飞行器失速保护系统收到了错误的飞行状态参数信号(飞机攻角参数等)或者其自身潜在系统故障开始发作,致使该飞行器失速保护系统错误认为飞机处于失速状态,触发失速保护系统开始工作,接管飞机进行如下操作:使升降舵下偏,导致飞机尾部抬起和机头朝下,控制飞机以机头骤降的方式化解并不存在的“失速”(Stall)。失事飞机下降过程中出现过一次拉升后又重复下降直至坠毁的现象,该现象表明飞行员可能在与飞行器失速保护系统争夺飞机控制权,但是飞行员没能获得成功,导致飞机在高速撞击海面时解体,酿成了机毁人亡的惨剧。
(3)问题原因分析
波音的产品设计、以及处置程序至少存在以下问题:
a.设计层面——系统安全冗余:单侧AOA(迎角/攻角传感器)信号故障,就能导致“空速不可靠+失速抖杆警告+安定面失控(持续作动)”的连锁反应,
737飞机只有两个AOA探头,分别给两部ADIRU(大气数据惯性基准系统)提供迎角信号。不论这两个信号之间是否有差异或者差异有多大(其实这已经是明显的故障迹象了),对应的ADIRU都会无条件的采信,进而输送信号给其它仪表,比如空速指示,比如抖杆器。b.设计层面——安定面/升降舵的操纵权限:一般而言,水平安定面要比升降舵大,对俯仰操纵的效能更高。所以,存在一种情况,即安定面的偏转角度如果过大,飞行员就无法使用升降舵改变飞机的俯仰变化趋势了——升降舵控制失灵。只要失速信号持续存在,包括MCAS模式在内的STS系统(速度配平系统)都会持续施加下俯配平,直到到达安定面下俯极限位置。这种模式会让安定面偏转到这种使升降舵失灵的角度,让飞行员最终失去对飞机的控制。c.处置程序层面——空速不可靠和失速改出程序不尽统一:对于“空速不可靠”故障,波音要求飞行员第一时间断开自动驾驶和自动油门,同时设置初始的核心飞行参数——姿态和油门,但没有提醒飞行员第一时间识别并排除可能存在的错误失速信号干扰。而另一方面,对于“失速改出”程序,波音要求飞行员第一时间通过向前减小姿态来减小飞机的迎角,并没有提醒飞行员去识别并排除可能存在的错误空速指示干扰。a.强化MCAS工作逻辑:MCAS对两部迎角探测器测出的迎角(AOA)进行比较,如果当襟翼收上时两个数据偏差达到5.5°或以上,MCAS功能将不发挥作用。如果两个AOA数据误差值维持在一个稳定范围,MCAS功能只会介入1次。系统只会在AOA从正常数值开始升高的情况下才开始运行。当AOA信号在起飞时出错且该错误在整个飞行过程中维持时,系统不会介入。当MCAS指令水平安定面移动时,该指令的权限不会超过升降舵极限。b.飞行控制计算机(FCC)对AOA数据对比监控:两部FCC独立地从两部AOA传感器获取数据信息。当襟翼收上时,如果AOA出现了5.5°及以上的偏差,SPEED TRIM FAIL灯亮,之后的飞行过程中STS系统(包括ST和MCAS功能)将不会生效。中值选择逻辑(Mid-Value Select logic)能够防止单个有效但偏高的AOA数值信号激活MCAS逻辑。由于AOA数值不一致导致SPEEDTRIM FAIL灯亮还会导致机务维修信息记录,机务在航后通过CDU可以读取该信息。这两个措施,可以解决我们前面提到的“系统安全冗余”和“安定面/升降舵的操纵权限”两个设计层面的问题。
①已有平台的更改引入不确定性和起飞失速的问题;
②与之对应的措施设计不完备,尤其是对于攻角传感器采集到的信息没有一个合理判定;
③自动程序执行时飞行员无法介入的问题,即飞行员失去了对飞机的控制权;
针对环节1,设计人员一定是发现了此隐患环节,并且是较高的概率,对照风险判定表格,至少是Eb、Ec以上,对应了III级、IV级风险,所以必定要采取风险消减措施。针对环节2,由于其判定没有综合比较,而是选择相信某一攻角传感器的数值,但攻角传感器存在一定概率的输出值错误、不准确,也就是攻角传感器的失效概率,按照可靠性层面进行分析,可靠性估值可能比较高,但一旦出现问题显示攻角过大,飞行控制系统就判定为存在失速风险,就会接管飞行员操作强行压低机头,此时的结果也一定灾难型(E),从事后来看可能性为“很可能”(e),那么该风险一定是V(Ee)。实际上有人会问正向分析时我们关注这些环节时,风险的后果可能比较高,但我们赌的是发生概率极低,但这个极低或者说小概率事件是一定会发生的,我们在系统工程中遇到过10几个PPM也就是万分之几的概率问题一定发生,对于全球年起降次数不止几十万次量级的飞机而言,极低概率一样会笃定地发生问题,而一般而言的单机可靠性已经难以包住,需要的自然是冗余措施的增加,以及冗余措施的有效性,这些必定要成为正向设计和风险分析时重点关注的环节。同时,任何载人的运载器,必定要考虑到自动控制和手动控制的切换问题,要本着人道主义精神,为绝望者留有一丝的希望和尊严。由此推及运载火箭,整个飞行都是程序控制,但整个发射流程一定要设定人员介入的时机和断点,确保一些流程可以紧急终止,甚至于采取逆流程操作,规避不应有的巨大损失。1986年1月28日,美国的“挑战者”号航天飞机从卡纳维拉尔角航天基地发射升空后73秒起火爆炸。![]()
![]()
机长:弗朗西斯·斯科比,四十六岁;驾驶员:迈克尔·史密斯,四十岁,宇航员:朱迪恩·雷斯尼克(女),三十六岁;罗纳德·麦克奈尔,三十五岁;埃利森·鬼冢,三十九岁;格里高利·杰维斯,四十一岁;教师克里斯塔·麦考利夫(女),三十七岁
发射时气温过低,发射台上已经结冰,造成固定右副燃料舱的0形环硬化,失效。在点火时,火焰从上往下烧,0型环要及时膨胀,但0型环已经失效,火焰往外冒,断断续续冒出了黑烟。但是由于燃料中添加了铝,燃烧形成的铝渣堵住了裂缝,在明火冲出裂缝前临时替代了0型环的密封作用。在爆炸前十几秒,宇航飞船遭到一股强气流,威力相当与卡特里娜飓风。凝结尾出现了不同寻常的“Z”字尾,接下来的震动让铝渣脱落,移除了阻碍明火从接缝处泄漏出来的最后一个屏障,火焰喷射在主燃料舱上。在爆炸前一秒,火焰烧灼让主燃料舱的0型环脱落,造成了主燃料舱底部脱落。助推器的顶端也撞上了主燃料舱的顶部,灼热的气体窜入顶端充满氧气的舱室,导致了大爆炸。在发射后73秒,“挑战者”号在40000公升燃料的爆炸下,炸成了几千个碎片。①"挑战者"号失事的直接原因是右部火箭发动机上的两个零件联接处出现了问题,具体的讲就是旨在防止喷气燃料热气从联接处泄露的密封圈遭到了破坏,这是导致航天飞机失事的直接技术原因。②在航天飞机设计准则明确规定了推进器运作的温度范围,即40°F-90°F,而在实际运行时,整个航天飞机系统周围温度却是处于31°F-99°F的范围。③所有的橡胶密封圈从来没有在50°F以下测验过,这主要是因为这种材料是用来承受燃烧热气的,而不是用来承受冬天里发射时的寒气的,而当时"挑战者"发射的时间却正好是在寒冷的冬天。正如前面所说,挑战者号失事的根本原因在于决策问题,而非仅仅是技术上的问题。对于在按照规定准时飞行、节约成本与安全飞行的决策上存在严重的失误。宇航局选择了前者,这个决策是一个重大的失误。宇航局根本没有考虑到在这个问题上哪一个更加重要。宇航局宁可选择有缺陷的工具飞行,也不愿接受27个月的修改计划。在摩劳伊的回忆中写到:我认为我们每次都在冒险,我们在1月28日还经历了一次从发现密封圈腐蚀时候一直都经历的冒险。这完全是如赌徒一般的行为。对于候补制造商的选择上也存在决策失误的问题。首先是沟通问题。沟通在整个航天局以及在航天局与外部的沟通上都存在严重的不足。如在跟萨科尔公司的沟通上,存在着等级优越的观念。这是根本不适合于组织发展的。其次是决策的环境问题。我们不难看到,整个决策环境其实都有压力,压力既有内部的,又有外部的,宇航局想在里根总统发表国情咨文前把航天飞机送上天。这显然是承受着巨大的压力。尽管这种压力并不能够得到当局的承认,但是确实存在。还有组织内部本身的从众情绪较重。得克萨斯州立大学的名誉校长汉斯说:"我相信在每一次独立的发射中有一些分部门的工程师不会起来说‘别发射',因为人人都会因此遭到议论。"由此可见,在宇航局的员工们的从众压力多么的严重。最后,骄傲情绪充斥着整个宇航局,因为他们的成功先例使他们处在了一个危险的边缘,没有回旋的余地,骄傲情绪继续滋长。对于危机的来临又缺乏镇定的应对及方法。(4)逆向反思技术风险分析时应该关注的环节
其实这里的产品风险环节在于产品的环境适应性,或者说选取了性能参数不太够的产品。所以对于产品风险,更要关注的是在使用环境和工况下其参数的稳定性。同时管理原因之于技术、产品的影响程度极深,需要重点关注。〔产品风险中最为棘手的就是检测不到环节,特殊过程,过程结束后就无法测量不知其好坏,只能靠工艺过程来保证,而工艺一旦不细化、不量化,产品质量就无从保证,这是一类产品最大的风险……〕![]()
2020年11月16日法属圭亚那库鲁发射场当地时间22时52分(北京时间11月17日9时52分),欧空局织女星(VEGA)运载火箭点火起飞,前三级正常工作,第四级液体上面级点火后偏离飞行轨道,最终任务失败。本次发射是织女星火箭的第17次飞行,搭载西班牙工业技术发展中心的西班牙高分辨率光学遥感卫星(SEOSAT-Ingenio)、法国国家空间研究中心(CNES)科学卫星(TARANIS),这是继2019年7月第15次飞行出现失利后再一次遭受挫折。北京时间11月17日24时,阿里安航天公司表示,初步确定失利原因为AVUM上面级制造过程中的质量问题导致,完全是“一系列人为原因,而非设计上的问题”。阿里安航天公司首席技术官罗兰·莱杰尔表示,“AVUM刚刚点火启动后,火箭就开始出现控制错乱,这种失控无法逆转,并逐步酿成严重的翻滚,最终导致上面级偏离预定轨道。根据对遥测数据的初步判断,具体原因是AVUM推力矢量控制执行机构(即伺服机构)的电缆连接插反,控制指令持续作用到了相反的执行机构,最终导致箭体姿态失控”。12月18日,欧空局和阿里安公司经过为期近1个月的联合调查,确认AVUM的推力矢量控制系统的两条电缆插反导致火箭发射失败,根本原因是总装规程存在“误导性”,导致工作人员将电缆接反,而且在火箭总装和最终验收的检验环节未能发现。欧空局将开展两方面整改:一是对后续两枚织女星火箭开展进一步检查和测试,查找是否存在类似缺陷;二是改进火箭总装和测试规程,加强对工人和检验人员的培训工作。2003年9月6日,美国国家海洋和大气管理局(NOAA)的一颗价值2.9亿美元的 NOAA-N-Prime高级气象卫星 在工作时不慎摔落。事故原因是卫星底部的螺丝未拧紧,且未被记录在案。随后,技术人员在不知情的情况下转动支架,导致卫星从一米的高度摔到混凝土地板上,造成严重损坏。事故发生后,NOAA迅速成立了事故调查和评估小组,最终由运营团队赔偿了3000万美元,美国政府承担了剩余的1.35亿美元修理费用。〔据演绎,据说当时有一个实习人员问操作员,为什么那么多固定的螺栓不拧上,答曰几个就够,根本不需要那么多……无知者无畏,而那一些有章不循者,就实在不知道是怎么想的了……〕
![]()
![]()
“金牛座”XIL运载火箭整流罩分离异常导致失利的真相![]()
美国国家气象频道2019年5月2日报道,近日NASA和美国司法部联合发布调查报告,公开失败原因。报告显示,NASA的零部件供应商自1996年至2015年伪造测试结果,还向MASA提供残次品铝件。该公司的残次铝件导致火箭整流罩无法脱离,造成发射接连失败。该公司涉嫌欺诈,零件测试实验室主管入狱三年,还要赔偿4600万美元给NSA和美国国防部等客户。2009年2月24日及2011年3月4日,美国“金牛座”型小型运载火箭(截至2017年10月31日10次发射7次成功)接连失败,导致NASA的轨道碳观测卫星及“荣耀”科研卫星(Glory)等载荷全部损失价值高达7亿美元。据MSA新闻稿称,两枚“金牛座XL”火箭未能入轨的原因,是俄勒冈州铝材供应商“萨帕型材”(Sapa Profiles Inc.)提供了不合格的零部件。自1996年到2015年,19年来该公司伪造测试结果,为火箭整流罩外壳部分提供残次铝材。两次发射中,火箭要么无法脱离整流罩,要么无法分离載荷。2015年,“萨帕型材”承认自己伪造测试结果,然而拒不承担火箭失败责任。直到NASA对该公司铝件进行了独立测试,发现强度不达标,才证实了“萨帕型材”的责任,包括NASA、美国国防部在内,有数百名客户受害,2015年9月30日起“蓝帕型材”被禁止和美国政府签约。美国司法部周二(5月2日)宣布,为解决这起涉及刑事和民事诉讼许骗案,“萨帕型材”(已改名为 Hydro Extrusion Portland Inc)需向NASA和美国国防部等客户支付4600万美元,该公司零件测试实验室主管巴利乌斯(DennisBalius)被判入狱三年。NASA发射服务主任吉姆·诺曼(Jim Norman)声明称,“NASA依赖整个供应链的完整性,虽然我们会自己测试,但NASA不能重新检测每一个零件。这就是为什么我们要求供应商测试零件,并为其支付费用的原因。”美国“太空海岸新闻”认为,“萨帕型材”的行为直接导致“金牛座”火箭两次发射失败,使其被雪藏至2017年,快速发射服务产业链都因此被打击。〔虽然现在造假的不多,但偷工减料有之,以次充好有之……〕PS3;管它是什么风险,只要你不放心,就要想办法做一些工作让自己放心……一般而言,风险不是单维度的,而是耦合起来的,既有技术因素,又有产品因素、操作因素,更有管理因素……一个典型例子:哥伦比亚号航天飞机再入解体
①全景视频
②相关视频
2003年,哥伦比亚号航天飞机外部燃料箱表面脱落的一块泡沫材料击中航天飞机左翼前缘的名为“增强碳碳”的材料。航天飞机返回时经过大气层,产生剧烈摩擦使温度高达摄氏1400℃的空气在冲入左机翼后融化了内部结构,致使机翼和机体融化。![]()
调查美国“哥伦比亚”号航天飞机解体爆炸之谜的独立委员会宣布,有关人员向模拟的航天飞机机翼发射了一块泡沫绝缘材料,结果在机体表面形成了大约2英尺长(60多厘米)的大口子。据悉,这是为确定“哥伦比亚”号失事原因而进行的第七次(最后一次)模拟撞击试验,也是破坏效果最为惊人的一次,让现场观看人员惊讶不已。这次试验最终确定了造成飞机解体的罪魁祸首(软呼呼的泡沫材料)。
![]()
电视录像显示,在“哥伦比亚”号发射升空过程中,一块重量不到两公斤的泡沫材料从机身下部的燃料箱上脱落后,击中了航天飞机的左翼前端。此后,就有人怀疑,这次撞击可能对机体表面隔热瓦构成了伤害,但美航空航天局(NASA)高层认为,本次事件并不严重,“哥伦比亚”号可安全返航,结果在航天飞机重新进入大气层后,超高温空气从破损处进入机身内部,并造成飞机爆炸,七名宇航员丧生的悲剧。各方因此指责NASA官僚主义作风严重,在此事中难逃罪责。在试验中,研究人员使用高压枪将泡沫以每小时将近1000公里的速度,发射撞击到模拟的机翼上(来自“亚特兰蒂”号的真品)。现场共有12部高速摄像机(六部在机翼内部,六部在外部) 负责捕捉具体撞击过程。此外,还有数百个传感器承担着收集相关震动数据的任务。同此前试验不太一样的是,本次承担撞击任务的泡沫“整体拍到”了航天飞机表面,此前则是“小角度撞击”,因此破坏力更为惊人。
①起飞时就种下了事故的种子
美国航空航天局承认,他们早就发现“哥伦比亚”号航天飞机在起飞时,因遭受到从外燃料箱上掉下来的一块绝缘材料的撞击,使得航天飞机左翼下的隔热瓦发生脱落。事故调查人员从起飞时的录像带上也发现,在“哥伦比亚”号起飞后80秒,有一些东西从机体上脱落下来。
航空航天局的工作人员当然清楚隔热瓦脱落产生的严重后果。在航天飞机上共装有24000块隔热瓦,这种隔热瓦的作用是抵御再入大气层时的高温。因为航天飞机再入大气层时,由于与大气的磨擦而产生摄氏1650度的高温。如果隔热瓦脱落,会导致隔热瓦保护层下部的航天飞机铝构架的变形,使更多的隔热瓦脱落。如果隔热瓦脱落到一定数量,就会使航天飞机再入大气层时被巨大的压力和高温撕裂成碎片。
虽然航空航天局的工程技术人员曾经花了几天的时间对这一事件进行过分析,但他们最后得出的结论是“不碍事”。而且航空航天局的官员还告诉记者不用担心,他们保证“绝对没有问题”。直到事故发生以后,他们才承认自己判断错了,起飞时隔热瓦的脱落可能是事故发生的主要原因。
②航空航天局的判断错误
第一,既然航空航天局早就知道航天飞机起飞时因遭到撞击,左翼下的隔热瓦脱落,而且他们也知道隔热瓦脱落可能引起的严重后果,但是为什么在航天飞机两周的飞行中不采取任何措施对隔热瓦脱落的情况进行检查?第二,为什么航空航天局不让航天员通过太空行走到舱外去检查和维修航天飞机脱落的隔热瓦?关于太空维修问题航空航天局的官员说,“哥伦比亚”号上确实有两名航天员接受过出舱活动的训练,而且也有两套出舱活动航天服,但是他们只能完成简单的太空维修任务,对于维修脱落的隔热瓦,既没有这方面的训练,也没有维修工具和备用的隔热瓦,因此不能完成这种任务。但隔热瓦是航天飞机上非常容易损坏的一种零件,在航天飞机上不带维修工具和备用隔热瓦,也不对航天员进行这方面的维修训练,显然是一种失误。第三,如果确定航天飞机脱落的隔热瓦不能维修,又知道如果脱落的隔热瓦不能维修好将会发生怎样的严重后果,航空航天局为什么不设法营救“哥伦比亚”号的航天员?
③人为失误是造成事故的关键
美国航空航天局的所作所为给人一种印象,他们自始至终存在一种侥幸心理。由于这种侥幸心理,他们完全没有想到要去检查一下航天飞机左翼下隔热瓦的脱落情况,当然就不会考虑对它进行维修,更不会考虑如何营救航天员。因此他们丧失了一个又一个防止事故发生的机会。显然,隔热瓦的脱落是造成事故的重要原因,但是如果没有这种侥幸心理,如果对事故隐患能做出正确判断,从而采取各种措施和办法,事故是完全可以避免的,至少不至于造成如此重大的损失。事故发生以来,美国航空航天局和三个调查组似乎有一种默契,尽力将事故定位在技术原因上。其实他们的用心是可以理解的。因为如果说是人为失误,必然就牵扯到责任,“失误”变成了“失职”,不仅航空航天局接受不了,美国国会和布什政府也接受不了。其实“人为失误”是一个科学术语。人在工作中由于生理、心理、认知和知识等方面的局限,不可避免的会犯这样或那样的错误。“人为失误”是一种客观存在的现象,不以人的意志为转移。不过通过科学的方法,可以将人为失误减到最少。但是如果人们不能正确认识这种现象,或是有意回避这个问题。
![]()
![]()
![]()
2003年2月1日,哥伦比亚准备重新进入大气层,进入返回着陆阶段。在所有机组人员准备就绪后,哥伦比亚号离轨并成功进行了离轨燃烧。大约两分半钟后,哥伦比亚号在120公里的高度进入大气层。进入大气层后,“进入界面”系统开始工作,传感器开始工作。此时传感器记录显示左翼的应变大于正常值,但这个数据只记录在内部记录器中,没有传送给机组和地面控制中心。与此同时,左翼的阻力增大,轨道器开始向左偏航,但由于轨道器的飞行控制系统的修正,所以没有人注意到这一点。随着传感器报告的温度不断升高,左翼的阻力不断将轨道器向左移动,直到副翼无法进行配平修正,轨道飞行器的反应控制系统启动并试图纠正方向。这时,机组人员感觉降落不对,哈斯班开始呼叫地面控制中心,但高速的半坠落状态使空气电离,电子信号无法有效传送。然后飞船开始失控,弹道飞行的轨迹变得非常陡峭,阻力变大。飞船以超过15马赫的速度飞行,进入每秒30°~40°的状态。全体机组人员的加速度瞬间从0.8g提升到3g,虽然这不会让专业飞行员丧失行动能力,但是,这会影响它的意识和方向能力。终于,下午两点,飞船解体,所有记录消失,大量飞船碎片散落在天空中。宇航员在坠机过程中经历了减压然后昏迷,这个过程来得太快了以至于一些宇航员连时间都没有戴上头盔和手套。
此案例中:技术问题→→管理问题→→重大事故