业务连续性管理及应急预案 | 精华整理

文摘科技 2024-09-16 22:28 上海

探寻合规之道，共筑数据保障之堡。专注为数据安全管理者、技术专家、隐私法务、律师等专业人士打造的知识共享与交流平台。

点击 "合规社" > 点击右上角“···” > 设为星标⭐

分享嘉宾 | 耿杰老师

文章编辑 | 合规社 Cherry

本期分享嘉宾耿杰老师

耿杰老师 资深风险管理专家

合规社特邀嘉宾，FRM、CPA、CFA持证人员，复旦医学院医学学士、纽约州立大学金融学MBA、新泽西理工学院统计学硕士。兼任对外经贸大学统计学院硕士研究生导师和东方证券外聘专家。

14年美国华尔街资产管理、风险管理经验，曾任职美国花旗集团投资银行部、花旗银行零售银行部、美国德勤、邓白氏等华尔街大型金融机构。

2010年回国从事金融机构资产管理及风险管理咨询工作；曾担任惠誉评级中华区金融风险咨询总监、IBM亚太区金融风险咨询总监、以及中国德勤、亚联咨询等大型咨询机构的领导职务。

什么是业务连续性管理？

依据《商业银行业务连续性监管指引》，业务连续性管理指金融机构为有效应对重要业务运营中断事件，建设应急响应、恢复机制和管理能力框架，保障重要业务持续运营的一整套管理过程，包括策略、组织架构、方法、标准和程序。

什么是重要业务？

重要业务是指面向客户、涉及账务处理、时效性要求较高的业务，其运营服务中断会对机构产生较大经济损失或声誉影响，或对公民、法人和其他组织的权益、社会秩序和公共利益、国家安全造成严重影响的业务。

什么是重要业务运营中断事件？

重要业务运营中断事件是指因下述原因导致信息系统服务异常、重要业务停止运营的事件。业务中断的四大原因主要包括：

（1）信息技术故障。比如，信息系统本身的故障，配套措施的故障。

（2）外部服务中断。第三方无法合作或提供服务等。

（3）人为破坏。黑客攻击、恐怖袭击等；各行各业的业务越来越依靠信息系统，一旦就是黑客或者是恐怖袭击，造成人为的系统的中断，那也会使重要业务发生中断。

（4）自然灾害。火灾、雷击、海啸、地震、重大疫情等。

业务连续性管理有哪些管理手段？

业务连续性管理是风险管理的一部分，继承了风险管理的一些非常重要的手段。

手段一：业务连续性管理治理结构

对于风险管理，不管是什么风险，首先最上层要有管理政策制度。然后有一个治理架构，有管理的岗位，岗位职责，哪个部门管理哪些风险（如，金融机构有信用风险、市场风险、操作风险、流动性风险、银行占用率风险、声誉风险、战略风险等等），哪些部门应该管理哪个风险？每个部门里面应该有有效的管理岗位，专门去管理风险。业务连续性的管理也如此。

手段二：业务影响分析

分析不同业务的重要性、业务中断所产生的潜在损失、业务恢复的顺序。

手段三：业务连续性资源建设

建立指挥中心、备用业务运营资源、备用信息系统资源、备用人力资源等以应对业务中断事件。前述已分析有四大原因会造成业务中断。当业务中断后，一定要有足够的资源事先就建立起来，去防止当这些极端事件发生的时候，如何让业务恢复起来并延续下去。

每个单位都应该要有一个指挥中心，当发生了业务中断后，知道从哪一级的领导去下达指令，统筹业务连续性的恢复。

手段四：建立业务连续性应急处置计划

建立风险预警监测机制、建立影响评估机制、事件应对沟通报告机制、以及预防性应急演练机制。

这四项，就是我们业务连续性管理的一些主要的手段。

业务连续性管理中几个重要的术语

这些术语代表的一些参数是要在业务连续性管理中要确定的，所以需要掌握。

最大可接受中断（MAO）

活动可以中断的最长时间，而不会造成不可接受的损害（也是最大可中断中断时间 MTPD）。

恢复时间目标（RTO）

指在故障或灾难发生之后，系统停止工作的最高可承受时间。RTO和MTPD不一样。MTPD最大可接受中断，表示最大的、最长的可接受的时间。RTO是业务所希望的最高可以承受时间。RTO是比MTPD最大可接受的时间可能会短。

恢复点目标（RPO）

指数据应该恢复到的时间点，相当于企业愿意接受的最大数据丢失量。比如，在三点钟发生了事故，中断了以后，那希望从三点钟到几点钟的之间，是可以容忍这些数据就完全丢失？比如，只能容忍丢失半个小时，那三点到三点半的数据，就容忍找不回来了，三点半以后数据就必须有。

最低业务连续性目标（MBCO）

在故障或灾难发生之后，机构为达到其业务连续性目标可以接受的最低标准的服务和（或）产品水平。

注：图片来源于网络

这张图进一步解释RTO和RPO。这两个概念是监管明确规定，要求我们把每一个重要业务的RTO和RPO都要合理的标出来。

如图所示，故障灾难发生的时间是中间，RPO在左边，RTO在右边。向左：灾难发生后我们能够容忍多少数据丢失？向右：灾难发生以后至少要在多长时间把业务恢复？

业务影响分析的典型意义？

（1）识别和评估重要业务，明确重要业务归口管理部门、所需关键资源及对应的信息系统。不管任何机构，只要承担业务，从业务连续性的角度，就要评估一下哪些业务是重要业务？明确重要业务的归口管理部门？所有的重要业务，它是由谁来管理的？重要业务所涉及使用的关键的资源及对应的信息系统是哪些？

（2）分析各项重要业务在运营中断事件发生时可能造成的经济损失和非经济损失。经济影响，很好理解，比如造成了一些财务上的损失。非经济损失，有可能造成不合规，比如数据的不合规性；造成一些公共关系的问题；造成了一些公共舆论的问题；流失了一些客户等。

（3）结合业务服务时效性、服务周期等运行特点，确定重要业务恢复时间目标(业务RTO)、业务恢复点目标(业务RPO)。这两个时间目标，要在业务影响分析里去确定。有些业务它的时效性很强，比如网上业务是非常连续的，而且它能接触的这个客户多。但是如果只是一个对公线下的业务，比如贷款，那它的时效相对弱，差一天两天可能影响也不大。所以的话我们要结合时效性的一个服务的周期来确定RTO、RPO。

（4）明确业务重要程度和恢复优先级别，并识别重要业务恢复所需的必要资源。一个机构资源是有限的，当发生了灾难，比如有四个业务都中断了，那应该如何合理运用有限的资源？先恢复谁？后恢复谁?这要在业务影响分析去确定，然后还要准确地识别出重要业务恢复所需要的必要的资源，包括物质资源，人力资源等。

（5）制定业务恢复策略，确定灾难恢复资源获取方式和灾难恢复等级。

业务影响分析的一般步骤？

主要步骤：

（1）确定业务影响分析的范围。不管是金融机构也好，还是其它企业也好，首先就要确定到底业务影响分析的范围是什么？有什么样的业务？比如对于银行它有对公业务、零售业务、金融市场业务、理财业务等等。

（2）建立业务影响分析的标准和方法。对于不同的业务应该建立一个分析业务影响标准和方法论。每一个业务由于业务的针对的客户不同，使用的系统不同，数据不同，对它的分析，都是有不同的标准和方法。

（3）定义业务影响的类别。如前所述，业务影响的可能是财务，也有可能是非财务。那非财务里面违反监管要求，比如公共舆论，或者造成这个客户这个流失等等，都是这个业务影响的一些类别。

（4）损失影响分析。当业务中断以后到底会造成怎样的损失？

（5）评估业务重要性。可以给业务的重要性作个评估，比如用打分卡给业务一个评分。

（6）业务活动最大可接受中断时间MTPD。既然MTPD最大的这个可接受的中断时间，比如是四个小时。

（7）评估业务活动恢复时间目标RTO。进一步根据能力，到底希望的恢复时间是多长？比如最大是四个小时，那我们可能要求三个小时就要恢复。

（8）业务活动可容忍最大数据丢失时间RPO分析。对于很多非常重要的这个业务活动，它的RPU可能是零，不允许有一秒钟的数据的流失。

（9）业务关联分析。业务到底是个独立的业务，还是跟其他的业务是有关联性？只是跟机构内部的其他的业务有关联性？还是还跟其他机构的业务也有关联性？关联性，指当业务中断时会给其他业务带来负面影响。

（10）业务恢复优先级确定。比如银行，网上银行业务的恢复就是要比线下的贷款的这个系统的恢复一般要优先。假如只有一个人力的话，常规情况下，应该先去做网上银行的恢复工作，之后再去做这个线下。

（11）识别重要业务恢复所需必要资源。要对所有的重要业务都是要明确指定那应该利用哪些资源。

具体展开来看：

第一步：确定业务影响分析的范围

（1）明确本机构各个部门所涉及的业务活动。比如银行：

运营部：现金存款、行内转账、贷款放款；
贸易金融部：国际结算业务、贸易融资业务；
零售银行部：网银、借记卡取现。

（2）明确各类业务活动所涉及的信息科技系统。系统包括核心系统、网银系统、国结系统、信贷系统、资金管理系统等。

（3）明确各类业务的支持部门。机构内业务上下游部门、机构外业务关联外部机构。

第二步：建立业务影响分析的标准和方法论

（1）识别出具有时间敏感性的相关业务活动。时间敏感性非是业务连续性的一个本质，因为时间敏感，所以要保持业务连续。如果时间不敏感的话，就是静止的，或已经很长一段时间，静止的话，其实它就不存在一个业务连续性的问题了。

（2）明确业务影响分析所需数据的来源。业务的数据到底在什么地方？是什么数据？

（3）为了评估业务中断的损失，明确每个业务活动在中断发生后合适的取样区间。要明确业务中断以后，到底在多长的时间去取样本合适？要根据业务的一个时间，敏感度的程度，确定怎么分析业务中断以后多长时间作为取取样本的区间来进行分析，这个也是建立这个业务影响分析的方法论的一个非常重要的内涵。

（4）根据各类业务特点设计业务影响分析模型。对于不同的业务的特点设计业务影响的不同的模型。

第三步：定义业务影响的类别

业务影响分析评估维度：

造成公司声誉损失；
违反行业监管合规要求，违反法律法规要求；
影响客户满意度，造成客户流失；
造成财务损失。

第四步：损失影响分析

损失影响分析是评估在假设不同的业务中断时间（如30分钟、1小时、2小时、4小时、8小时）时，给公司业务造成的财务、非财务等不同方面的影响。选取的业务中断时间应当根据业务活动的特点，选取合适的业务中断时间及间隔，每个业务活动选取的业务中断时间可以不同。

那到底应该怎么选这个30分钟、一小时、两小时、四小时、八小时或一天呢？我们选取业务中断时间，应当根据业务活动的特点，选取合适的中断时间的间隔。每一个这个业务活动，选取业务中断的间隔是肯定是不一样的，对于时间的敏感性是不一样的。要根据业务的特点去分析不同的业务中断时间可能造成了财务损失和非财务损失。

损失影响的评估，需要综合考虑以下因素：

（1）该业务活动的替代手段。业务活动有没有替代手段，假如业务它要能百分之百的被另一个系统替代的话，其实这个业务理论上即使中断了，对财务和非财务影响，其实是没有的。往往来说，很多业务是有替代手段的，但是替代的程度有的可能很少。比如，给一家公司做贷款，用信贷系统是可以完成很多业务，评估过程有很多自动化。但是信贷系统即使断了，人工也是可以做，那这个业务替代可以说人工是能够基本上百分之百的替代。但是，比如网上业务，难以人工替代。

（2）该业务活动的对外影响范围和程度。如果这个范围是影响程度很大，我们就不能考虑用八小时去去评估它，可能顶多30分钟或者一小时去评估它的影响。

（3）该业务活动的关键时间点。如果很快就完成一个业务，选取的时候，分析的中断时间的时候也应该很短。

（4）该业务活动使用IT系统的频率。如果业务活动完全是线上的，对线上的依赖是百分之百的。另外一个业务，比如像线下贷款，它可能只有10%依赖IT系统。那这两个的话，考虑中断时间完全不一样。

损失影响评估一般采取打分卡的形式确定损失评分等级。损失影响分析，一般来讲可以把它分成六级。等级越高，就是越严重。

业务一旦发生中断的时候，可能的影响要通过打分卡的形式去具体给它归到这个影响的等级上。这个就是损失影响的一个分析。

不可接受的等级。这种损失对是绝对不可接受的，影响范围很大，可能造成全面的负面影响。公司甚至有停业或者从业资质都被取消的风险；或者财务影响巨大（一般会造成资产总额的3%，5%以上）。
严重影响等级。比不可接受小一点，它可能造成较大的负面影响，不能符合监管的要求，财务影响很大。
中等影响等级。比严重影响低一些，造成一定的负面影响。一般来讲，不可接受的一般都是全国层面的一些影响。严重影响，可能就说到了省一级的负面影响。中等影响可能是半个省、地区影响。中等影响比严重的要低一些，但是也是造成了相对较大的影响。
轻度影响等级。影响范围比较小，一般可通过协商解决问题，不会全面影响公司业务运行。但财务影响还是有点大，其他的影响相对比较小。
微小影响等级。比轻度影响还要小一些。通过协商即可解决问题，不会全面影响公司业务运作。或财务影响较大。
无影响等级。没有影响，不会影响公司业务运作。

第五步：确定业务活动最大可接受中断时间MTPD

根据损失影响分析确定不同业务在各个时间区间中断给公司造成的损失影响等级。

业务部门负责人及高级管理层根据不同中断事件造成的损失影响等级，确定一个最大可接受的中断时间，即为MTPD。这个一般由业务部门的主管来提议，由高级管理层（行长、副行长一级）来确定到底MTD是多少。比如对于存款，MTPD最大不能超过四小时。我们要确定每个业务，它最大的可接受的中断时间。

第六步：评估业务活动重要性等级

到这一步，需要打分卡，给每个业务都标出它的重要性的等级。打分卡，一般会包括以下因素：

该业务是否与外部用户有关。如果有与外部的用户有关，肯定它就要比只跟机构内的部门有关的重要性要高一点。
该业务是否有监管合规要求。比如像牵扯数据是不是合规，它肯定更重要一些。
该业务的最大可接受中断时间MTPD的取值。MTPD一个是八个小时，一个业务是30分钟，那显然30分钟的业务一定是要比八个小时业务要重要。
该业务是否有替代方式。如果是有完全可以替代的，那有一个呢是完全不能替代的，这是两极对吧那。能有部分替代肯定就比没有替代要强。

打分卡会以这四个因素，去求它的评分，各个因素的评分，依据权重算出总评分。

第七步：评估业务活动恢复时间目标RTO

基本上也是由业务部门通过以下这四个这个考虑因素，提出数值，和高级管理层一起来决定。四个数值，包括：

（1）业务使用的IT系统的频率是多少？

（2）业务可支配的人力资源是多少？

（3）业务有没有其他的替代方法？

（4）本机构灾备资源建设情况？

按照行业经验，可以将RTO分布在5个区间，并以这5个区间作为RTO的赋值依据，具体分值说明如下：

5分反映出该业务活动实时性要求很高，不能忍受过长的中断时间，甚至对系统中断几乎不可接受；
4分反映出该业务活动实时性要求比较高，不能忍受过长的中断时间；
3分反映出该业务活动实时性要求中等，对中断时间要求较高；
2分表示该类业务对中断时间要求一般；
1分则表示该类业务使用频率不高或不是非常紧迫。

图：评估业务活动恢复时间目标RTO

第八步：业务活动可容忍最大数据丢失时间RPO分析

RPO的设定中要考虑三个方面：

业务中断发生后随着时间推移数据丢失的数量。假如数据的丢失量非常大，那这个时候我们一定是希望怎么样把这个丢失时间设置越短越好。越短，我们的数据量就会这个丢失的比较少。假如这个数据丢失量随着时间推移并不大，能容忍更长的时间去恢复这些数据。
该业务活动的数据追补手段。假如这个数据在系统中丢失了，那我们还是有其他数据能去追补，比如一些客户的基本数据，比如这客户的姓名，年龄，学历。这些数据，即使中断丢失了，还是可以找到这个客户。那如果有些数据是可能对于最大数据丢时间能够容忍的更长一些。
该业务活动的重要等级。假如这个业务的重要等级很高。越重要，等级越高，肯定是越不能容忍这些数据的丢失。

以上只是列出这个因素，怎么样去确定的话，还是应该依据统计方法来决定。

第九步：业务关联分析

业务关联包括以下关联关系：

内部部门间关联：该业务的中断能负面影响机构内部其它业务的运营；

外部机构关联：该业务的中断能负面影响其它机构的业务的运营。

如果这个业务只是给我们同机构内部的业务有一些负面影响，那它就要比业务中断的时候同时会给其他的机构造成损失，这个分数的话，外部关联就要高一些。通过评分卡确定该业务业务关联的评分。

第十步：业务恢复优先级确定

到底是A级恢复优先级别最高？还是B优先恢复优先中等？还是C？

将业务恢复优先级总分按区间划分，得到恢复优先级。以下为优先等级的示例：

第十一步：确定重要业务恢复必要资源

我们知道了某个业务它的恢复等级，进一步确定需要哪些资源才能让它恢复？一般来讲要有：

（1）数据的资源。我们要取得系统中断前的一些的计时的数据，通过这些取得数据，才能够恢复它。

（2）人员的资源。任何重要业务的恢复都需要足够的人员的资源。

人员资源：

【1】负责对客户解释和安抚的服务应急保障人员。

【2】办理应急业务的业务应急保障经办人员。

【3】负责查询业务数据的技术支持人员。

【4】恢复业务系统的本行或外包技术支持人员和相关业务系统开发商人员。

业务连续性属于风险管理的范畴。风险管理是涉及未来的非预期的损失。也就是说，概率。未来有多大可能发生这个风险事件，然后造成了损失。所以它不是一个确定性。对于风险管理来讲，都是假设未来这个风险事件发生了，应该怎么样去应急？

在风险管理领域，应急预案是非常重要的！我们几乎所有的风险都要有风险预案。不管市场风险也好，操作风险也好，信用风险，银行账户利率风险等等，这些风险都有风险预案。一旦这个风险发生了，应该怎么样去进行管理？

作为业务连续性应急管理，首先，要有一个业务联系性应急预案。要制定重要业务的专项应急预案。每个重要业务都要有专项的应急预案的。制定重要业务专项应急预案，专项应急预案应当注重灾难场景的设计，明确在不同场景下的应急流程和措施。

专项的应急预案，要考虑灾难发生的场景。比如系统是因为灾难（台风、地震等）导致中断发生？还是因为人为因素，比如黑客、这个诈骗等等。要把所有导致这个风险发生的因素都总结出来。然后，根据不同的场景制定应急流程和和损失。

业务连续性管理应急预案基本要包括下面这些内容：

(1)应急组织架构及各部门、人员在预案中的角色、权限、职责分工；

(2)信息传递路径和方式；当这个发生了以后，比如我们有一个管理中心，管理中心由谁发第一句？传给谁？由谁传？

(3)运营中断事件处置程序，包括预警、报告、决策、指挥、响应、回退等；

(4)运营中断事件处置过程中的风险控制措施；

(5)运营中断事件的危机处理机制；

(6)运营中断事件的内部沟通机制和联系方式；

(7)运营中断事件的外部沟通机制和联系方式；

(8)应急完成后的还原机制。

业务连续性资源建设

业务连续性的资源建设，这个监管也是明确有要求。

（1）设立运营中断事件指挥中心，用于应急决策、指挥与联络；并配置相应的办公与通讯设备以及指挥执行文档、联系资料等；

（2）建立符合业务连续性管理要求的备用资源，如不会同时遭受同类型风险的备用业务场所资源、备用信息系统运行场所资源、备用信息技术资源、备用人力资源等，以及电力、通讯、消防、安保等资源；选择场所时应综合分析备用场所的自然环境、地区配套设施、区域经济环境、交通条件、政策环境等成本各方面因素，以及灾难恢复所需的金融服务、通讯、设备、技术等外部服务供应商资源情况；

(3)明确关键岗位的备份人员及其备份方式，并确保备份人员可用，降低关键岗位人员无法及时履职风险。

业务连续性应急演练

业务连续性的应急演练非常重要。

（1）各业务连续性执行部门制定年度应急演练计划，开展业务连续性计划演练，检验应急预案的完整性、可操作性和有效性，验证业务连续性资源的可用性，提高运营中断事件的综合处置能力。

（2）制定业务连续性演练计划时，要考虑业务的重要性和影响程度，包括客户范围、业务性质、业务时效性、经济与非经济影响等，演练频率、方式与业务的重要性和影响程度相匹配；

（3）进行应急预案演练时必须将外部供应商纳入演练范围并开展演练；参加金融同业单位、外部金融市场、金融服务平台和公共事业部门等组织的业务连续性计划演练，确保应急和协调措施的有效性；

（4）业务连续性计划的演练过程必须完整记录，及时总结、评估和改进；

（5）业务连续性执行部门每年至少对业务连续性管理体系的完整性、合理性、有效性组织一次自评估，并向业务连续性管理委员会提交评估报告；

（6）在业务功能或关键资源发生重大变更时，必须及时对业务连续性计划进行修订；

（7）审计部门每年对本行业务连续性管理进行审计。

图：业务连续性管理实例（EXCEL）展示

-END-

合规社知识星球社区私享会是一个常态化的分享机制，平均每2周会定期邀请各行业专家进行分享。如果您有好的做法、实践和想法，欢迎一同加入分享，一同建设数据安全及合规交流平台。

📖 近期合规社知识星球私享会预告

1.数据安全风险评估：如何快速理解业务系统？

2.金融数据安全治理分享

3.数据资产入表合规

注：往期知识星球私享会课件下载及回看视频链接，请前往知识星球获取。以下为部分示例：

知识星球中秋特惠放送🎁🎁🎁

立减30元，仅需169元，限量20份！抢完无！

⬇️⬇️⬇️

http://mp.weixin.qq.com/s?__biz=MzkyMTUwMjIwNA==&mid=2247497858&idx=1&sn=6098bc2ff03417ced9b14722a1f63dca

合规社

数据安全与隐私保护新知分享平台