今年早些时候,一架波音飞机的舱门塞在飞行过程中脱落,原因就是关键螺栓缺失。约翰·唐纳(布里斯托大学科学技术研究副教授,也是《理性事故》一书的作者)说,这起事件表明,为什么像这样的简单故障往往是更大问题的征兆。因为如果这次危及航班安全的事件来自于一个简单而且可预防的制造或维护错误,这类事故意味着更加深远影响的异常现象。
1 月 6 日,阿拉斯加航空 1282 号航班(波音 737 Max 9 型飞机)从俄勒冈州波特兰起飞时,飞机的一大块结构——机身门塞在飞行过程中脱落。门塞脱落后,机舱猛烈减压,发出轰隆隆的巨响,强风将头枕从系泊处吹起。坐在飞机断裂处正前方的一名十几岁男孩被他妈妈紧紧抱住,男孩的衬衫被扯下,被吸入空隙。
这场惊心动魄的事故中没有人丧生,这多少算得上是奇迹,但事故发生时,人们也惊恐不已。如果机身损坏部分旁边的座位不是空的,或者安全带指示灯没有亮起,事故很可能造成人员死亡。
现代喷气式客机发生危险故障一般是极为罕见的事件,但即使在这种情况下,插头爆裂看起来也不同寻常且令人担忧。初步报告强烈表明,其直接原因令人震惊地平凡:波音公司似乎只是未能正确固定插头。当在居民区发现这个错误的门插头时,它缺少四个关键螺栓,据报道,随后的检查发现其他飞机机身上的插头螺栓固定不当。
如果安全调查结束时螺栓缺失理论得到证实,那么这次故障的普通性将使它与众不同。当喷气式客机因机械原因而发生故障时,这些原因往往比螺栓缺失要复杂和与众不同(至少从工程角度来看)。对于一架航班来说,由于如此平淡无奇且完全可以避免的制造或维护错误而受到威胁是一种异常现象,具有不祥的预兆。
让喷气式客机达到我们所期望的极高的可靠性很难,尤其是在严苛环境下运行的复杂技术中。这很直观。但它所带来的挑战的性质,以及航空业应对这些挑战的方式,都被人们广泛误解了。
近年来,波音公司不得不应对其 737 Max 短途客机的严重问题
我们期望喷气式飞机具有极高的可靠性,而这与我们期望其他任何系统都具有“正常”可靠性相比,其挑战性截然不同。本质上,这是因为设计一个不会经常发生故障的复杂系统的挑战在于了解该系统及其操作的复杂性。(也就是说,工程师越了解系统如何发生故障,他们就越有能力防止系统发生故障。)
但降低系统故障率所需的知识深度以及获得这些知识的难度并不是线性增长的。就像在没有氧气的情况下攀登高山一样,每一步都会变得越来越困难。因此,将系统的可靠性提高一倍需要付出两倍以上的努力,依此类推。
为了理解这种关系,我们可以设想建立一个 99.99% 可靠的系统(即每10,000 小时运行中故障不超过一次的系统)。为了实现这一点,工程师需要了解系统在这段时间内的行为方式:它可能面临的外部条件、它的许多元素将如何与这些条件相互作用,以及其他许多因素。为此,他们需要抽象概念(理论、测试、模型),这些概念足以代表现实世界,以准确捕捉每10,000 小时可能只发生一次的事件。
然而,现实世界是“混乱的”,工程抽象永远无法完美再现,因此实现这种代表性可能具有挑战性。在10,000 小时内可能会发生许多意想不到的灾难性事件。也许一种不寻常的环境条件可能会以意想不到的方式对材料施加压力,导致其腐蚀或疲劳。或者一个模糊的输入组合可能会导致基本软件组件崩溃或行为异常。正如老话所说,我们很难知道我们的无知,所以这些事情很难预料。
现在考虑一下,当系统所需的可靠性从 99.99% 上升到 99.999% 时会发生什么。为了达到这个新的基准,工程师需要考虑可能发生的意外情况,不是每10,000小时,而是每100,000小时。这是一个更大的甚至更模糊的可能性集合。在这个指数级增长的难度中每个新小数都代表着模糊性极大上升,而工程师需要在他们的抽象思维中捕捉到这些因素并在他们的设计中给出解决方案。
因此,随着每次增加,可靠性计算越来越有可能被一些深奥且不可能的东西破坏,而这些东西超出了他们对系统运作方式的理解:一些属性或没有人想到要测试或建模的情况组合。(在其他地方,我曾建议我们将此类故障称为“理性事故”,部分原因是它们源于理性持有但错误的信念,部分原因是从认识论上来说,预期它们发生是合理的。)
我们应该从这个背景来理解喷气式客机的安全性。从认识论的不确定性及其隐患的角度来看,过去几十年民航的安全记录简直令人震惊。由于技术故障而导致的客机事故率意味着其关键系统的平均故障时间不是 10,000 小时甚至 100,000 小时,而是超过 10亿小时。
波音公司首席执行官戴维·卡尔霍恩(右)在今年的参议院听证会上必须回答有关该公司企业文化的问题
作为一项 20 世纪的工程成就,商业飞行的平凡和乏味与阿波罗登月的非凡和戏剧性不相上下。如果这项集体成就的荣誉必须归于一个组织,那么它一定是波音公司。该公司是喷气式客机革命的先锋,并在随后的大部分喷气时代都是民用客机的领先制造商。其革命性的B-29 超级堡垒轰炸机在战时的开发成本比曼哈顿计划还要高,开创了许多使现代喷气式客机成为可能的核心技术和设计原则。
波音公司及其同行实现如此高可靠性的过程经常被曲解。我们已经习惯于认为工程是一个客观的、受规则支配的过程,而让喷气式客机变得可靠的工作也完全是用这种语言来表达的。因此,我们被告知,现代航空旅行令人敬畏的平凡是建立在越来越详细的工程分析和严格的监管监督之上:测试、模型、测量和计算。
然而,就像香肠和经文一样,当仔细检查这些正式做法的制作环境时,它们看起来越来越虚假。即使是最详尽的测试和模型也无法准确地识别和重现喷气式客机在数十亿小时的运行中在现实世界中表现的每一个细微之处。这将是一项不可能完成的任务。
因此,尽管在大多数工程情况下,严格的分析和监督就足够了,但它们的用处在它们能够提供喷气式飞机所需的性能之前就已经减弱了。在这个领域工作的工程师需要突破抽象的限制和不确定性,而这正是极端可靠性的真正挑战。
仔细研究后,我们发现,航空业通过一系列务实但无法量化的做法来应对这一挑战,这些做法本质上是一个从经验中缓慢学习的过程。工程师计算和测量了所有可以实际计算和测量的东西,然后他们通过从失败中寻找测试和模型中没有发现的边际见解,逐渐消除了剩下的不确定性。换句话说,他们利用了现实世界的经验,随着时间的推移,逐渐提高了喷气式客机的可靠性。
这个学习过程听起来很简单,但实际上却是一个痛苦、昂贵、长达数十年的磨练,其成功取决于几项长期且往往具有挑战性的组织承诺。例如,它需要花费大量金钱来研究该行业的失败和险情,并制度化地准备接受错误发现(组织自然倾向于抵制这一点)。
或许最重要的是,它依赖于对一致且稳定的喷气式客机设计范式的根深蒂固的坚持:愿意大大推迟或完全放弃实施诱人的创新——新材料、新架构、新技术。这些在纸面上的竞争优势是将带来更大的不确定性和安全的挑战。
这些至关重要的做法和承诺永远不可能完全由第三方立法、审计和执行,因为它们所依赖的是微妙且必然主观的判断。例如,监管机构可能会要求对“新”设计进行比“对先前设计的轻微修改”更严格的审查,但他们永远无法完美地定义什么是“轻微修改”。而且,虽然他们的规则可能要求对“安全关键”部件采取特殊预防措施,但特定部件的“关键性”始终是一个解释问题。
这些重要的实践和承诺必然是主观的,因此在某种程度上无法执行,因此,制定这些实践和承诺的组织文化就变得极为重要。波音等公司的战略决策者需要了解他们所做选择的重要性,而要做到这一点,他们需要能够看透现代航空安全话语中规则主导的客观性。他们必须意识到,在这个领域,甚至在其他领域,仅仅在检查清单上打勾是不够的。
今年 1 月,一架波音 737 Max 客舱门因螺栓固定不当而丢失
他们还需要愿意并能够优先考虑昂贵的、违反直觉的做法,而不是短期经济激励,并向利益相关者证明他们的决定是正确的,而无需诉诸传统意义上的量化严谨性。这使得航空级别的可靠性成为一项巨大的管理挑战和工程挑战。
那么,这种对航空可靠性的理解如何帮助我们理解波音公司最近在 737 飞机上遇到的问题呢?从这个角度来看,门塞事件看起来非常不寻常,因为它似乎是一个可以避免的错误。这比表面上看起来的更奇怪。在极少数情况下,喷气式客机故障归咎于飞机制造商,这些事故几乎总是“理性事故”,其根本原因隐藏在专家对系统的理解不确定中。如果门塞不牢固是由于螺栓缺失,那么这次就是其他原因了。正确固定螺栓是高可靠性工程中最容易实现的项目。制造商应该在开始安全级别的“九进制”式提升之前,就利用其详尽的规则和监督来发现这种问题。
我们总是不敢从小样本得出大结论,但这种普通的失败让人们越来越相信波音是一家逐渐迷失方向的公司。联邦航空管理局委托的一位专家对波音进行了审查,发现高级管理层与员工之间存在“脱节”的证据,而其他人则指出,波音的文化和优先事项越来越多地由 MBA而不是老工程师主导。
尤其重要的是,将这一失误与2018 年和 2019 年的 737-Max 空难联系起来看,与门塞爆裂不同,这两起空难的根源在于飞机设计(而非维护或制造)中可避免的缺陷。这些事件导致 737 Max 飞机在全球范围内停飞一年多,并要求波音公司改善其安全记录。2024年 7 月,在美国司法部发现波音公司违反了改革其安全和质量监控和报告的协议后,波音公司对一项刑事欺诈共谋指控表示认罪。
因此,波音公司的运营受到密切关注,引发了多项调查和参议院听证会,这并不令人意外。没有任何组织实践能符合其理想化的表述,因此这种审查可能会产生误导性的偏差印象。然而,即使考虑到这一点,这些调查得出的证词也描绘了一幅令人震惊的画面。证人纷纷表示,这家公司越来越重视利润而不是追求卓越:偷工减料、削弱工会劳动力、将过去在内部进行的精细工作外包,然后通过降价压榨分包商等等。(波音公司对这些指控作出了回应,一位发言人表示:“员工的反馈让我们变得更好,我们积极鼓励员工报告任何问题。波音员工可以通过各种渠道匿名举报,包括我们的 Speak Up 门户或直接向 FAA 举报。收到报告后,我们会迅速采取行动,采取必要措施,确保我们的飞机符合我们的规格和监管要求。”
这或许才是阿拉斯加航空事件的真正意义所在。波音公司肯定会解决任何特定的螺栓缺失或松动问题;如果再出现这样的错误,那才是真正不可思议的。
立法者和监管机构要求波音公司解决“波音安全历程中的漏洞”,但组织文化的惯性远超乎我们的想象。它们体现在人员、流程和绩效指标的选择上。它们被铭刻在制造战略中——例如外包战略——通过这些战略,它们被嵌入到合同、预算、价格和利润率中。
它们甚至可以塑造公司的地理位置。2001 年,波音公司将公司总部从制造飞机的西雅图迁至芝加哥,从而拉开了管理人员与工程师之间的距离。(2022 年,波音公司又将工程师迁至华盛顿特区。)重塑波音公司的“文化”将意味着要考虑所有这些因素,甚至更多。如果有可能的话,这将就像转动一艘超级油轮一样。
然而,即便波音的文化可以改变,它的遗产仍将永存。通过塑造公司的做法和优先事项,波音文化也将塑造其飞机的设计和制造。大多数批评者倾向于将波音所谓衰落的开始追溯到 1997 年,当时波音与麦克唐纳道格拉斯公司合并。从那时起,波音推出了三款新型喷气式客机——787 梦想飞机、737 Max 和(即将发布的)777X,并且已经生产了大量 787 和 Max。这些飞机对于购买它们的航空公司来说代表着巨大的投资,为了收回成本,这些航空公司将需要密集运营这些飞机多年。如果事实证明它们的长期安全性因其设计或建造中的缺陷而受到损害,收回这些成本可能会很危险或不切实际。
自第二次世界大战以来,波音公司一直处于客机发展的前沿,并且仍然是世界上最大的航空航天公司之一
737 Max最近几次的安全事故雄辩地说明了这种危险。极端可靠性取决于对微不足道的考虑,这意味着任何缺陷都可能需要一段时间才能显现为故障。每100,000 小时安全级别的制造缺陷不太可能立即导致任何飞机坠毁, 但其安全隐患会随着使用时间的增长而逐步显现出来,特别是新式飞机是逐渐投入使用的。Max在生产运行初期就发生事故和险些事故,这一事实为未来带来了疑问。(截至 2024 年 6 月底,波音已向客户交付了 1,555 架 737 Max 飞机。)
787 梦想飞机的记录则更加不透明。该飞机于 2004 年推出,曾出现过多个问题和技术故障,导致紧急降落或停飞。例如,在 2013 年,由于对锂离子电池安全性的担忧,全球所有 787 飞机都停飞了几个月,这导致多架飞机起火。然而,到目前为止,还没有发生过涉及787 的灾难性事故,这可以合理地理解为令人印象深刻;特别是考虑到目前投入运营的飞机数量(截至 2024 年 6 月底,波音公司已交付了 1,132 架 787)。当然,在几乎任何其他技术领域,这都是一项了不起的成就。
然而,民航业是一个独特的领域,相对于其运营预期,787 的记录远非决定性。许多设计或制造缺陷需要时间才能显现出来。
当然,时间最终会证明一切,但波音公司来之不易、当之无愧的卓越声誉无疑因最近的磨难而受到质疑。这很重要。民航与大多数工程领域不同,因为我们要求它具有极高的可靠性,因此几乎没有任何缺陷或错误的余地。我们能在13000米以上的高空能够平静的吃坚果和看电影时其实来自于远超我们想象的精密工作安定罕见成就。
据最新报道,波音公司新任商用飞机部门负责人周日(7/21)表示,该公司 737 MAX 工厂的生产流程正在显著改善,目前这家美国飞机制造商正在努力克服安全危机。让我们拭目以待。