全文共3649个字,建议阅读10分钟
随着“十四五”规划推行,数据要素概念与意识全面铺开,国家、政府机构、企业数据安全意识愈发强烈。2021年9月1号,《数据安全法》正式生效,数据资产安全进入“有法可依”时代。
如何基于数据安全五大原则(数据隔离、风险识别、数据生命周期保护、维持合规、事件响应),构建安全领域“三道防线”(技术防线、管理防线、法律防线),是国家、政府机构、企业的关注重点。而数据分类分级是数据安全的必由之路,也是让数据真正用起来的首要前提。
01 数据分类分级管理概述
大数据时代,数据呈现多源异构的特点,价值各不相同,企业应根据数据的重要性、价值指数等方面予以区分,便于采取不同的数据保护措施,防止数据泄露。因此,数据分类分级管理是数据安全保护中的重要环节之一。
1.数据分类
数据分类是指根据组织数据的属性或特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好地管理和使用组织数据的过程。
数据分类是数据保护工作中的关键部分之一,是建立统一、准确、完善的数据架构的基础,是实现集中化、专业化、标准化数据管理的基础。
2.数据分级
数据分级分类流程
02 数据分类分级方法及细则
数据分类的常用方法:按关系分类,基于业务(来源)、基于内容、基于监管等。
数据分级的常用方法:按特性分级,基于价值(公开、内部、重要核心等)、基于敏感程度(公开、秘密、机密、绝密等)、基于司法影响范围(大陆境内、跨区、跨境等)。
公用数据分类的常用方法:重要数据、个人及企业信息、业务数据。下面就来具体说明这三类公用数据。
重要数据:指一旦泄露则可导致危害国家安全,或危害公共利益、生命、财产安全,或危害国家关键基础设施,或扰乱市场秩序,或可推论出国家秘密等的数据。
个人及企业信息:包含直接个人信息,以电子或其他方式记录的、能够单独或与其他信息结合识别的自然人个人身份或企业的各种信息。
业务数据:包含企业或公共组织从事经营活动或例行社会管理功能、事务处理等一系列活动所产生的可存储的数据。
根据上述公用数据的分类,重要数据分级、个人及企业信息分级和业务数据分级的方法分别如图1、图2和图3所示。
图1 重要数据分级方法示意图
图2 个人及企业信息分级方法示意图
图3 业务数据分级方法示意图
企业可基于上述公用数据分类分级策略,结合自身业务和合规需求实际情况,规划出适合企业自身的数据分类分级方法,建立适合组织自身的数据分类分级原则和方法,将数据按照重要程度进行分类。
然后在数据分类的基础上,根据数据安全在受到破坏后对组织造成的影响和损失进行分级,如果组织层面已经具有相关的分类分级标准,则可酌情进行参考。在实际执行时,如果一次性做不到完全细粒度区分,则可以多步实现,循序渐进,不要设计过度复杂的方案。
企业自主分类分级可参考如图4所示的思路,基于非敏感、敏感、涉密三个等级,对应上述重要数据的五个等级进行分级。
图4 企业自主分类分级参考示意图
03 常见数据分类分级标准
1.数据分类分级框架
2.分类标准
数据分类具有多种视角和维度,其主要目的是便于数据管理和使用。数据处理者进行数据分类时,应优先遵循国家、行业的数据分类要求,如果所在行业没有行业数据分类规则,也可从组织经营维度进行数据分类。常见的数据分类维度,包括但不限于:
公民个人维度:将数据分为个人信息、非个人信息。
公共管理维度:将数据分为公共数据、社会数据。
信息传播维度:将数据分为公共传播信息、非公共传播信息。
行业领域维度:将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生健康数据、教育数据、科技数据等。
组织经营维度:将数据分为用户数据、业务数据、经营管理数据、系统运行和安全数据。
3.分级标准
下面列举了几种行业分级标准,影响程度从低到高:
政府数据:公开、内部、涉密。
金融数据:1级、2级、3级、4级、5级。
证券期货数据:低、中、高、超高。
04 基于实际应用场景的分类技术
基于实际应用场景的数据分类主要包含以下几种手段,其中,实际运用的技术手段可能涵盖内容感知分类方法和情景感知分类方法中的多种方法。
标签库:根据分类分级规则建立标签库;既可以单独成一个静态库,也可以直接在打标工具或系统后台进行自定义配置。我们可以根据不同的文件格式类型建立标签库。比如,对于数据库文件(.mdf),我们可以根据业务类型由大类到小类定义多个标签。再比如,对于旅游业,我们可以建立(商业、旅游、用户信息)的标签库。除了文件后缀名之外,我们还可以通过关键字、正则表达式等方式设定标签规则。
结构化数据打标:用户在建表时可以对字段标签直接进行设置,基于数据库的权限模型,对底层数据表的列权限进行控制。遍历读取数据库的表名、列名,甚至是列的内容,结合标签库中设定的规则,或者自定义规则,对发现的表名、列名以更细的粒度对数据进行分类划分。
非结构化数据打标:引入自然语言处理、数据挖掘和机器学习等技术,对内容进行识别,并与标签库相关的特征进行匹配,从而对非结构化的数据进行分类。
标注:首先,对一批文档进行人工分类,以作为训练集,然后利用机器学习算法,经过一段时间的学习之后,依据学习结果,对其他数据进行大批量打标。
训练:计算机从这些文档中挖掘出一些能够有效分类的规则,生成分类器(即总结出来的规则集合)。
分类:将生成的分类器应用在有待分类的文档集合中,获取文档的分类结果。由于机器学习方法在文本分类领域有着良好的实际表现,因此该方法已经成为该领域的主流。
数据分类与访问控制
分级指的是在分类的基础上,依据数据的敏感程度、影响范围及自身的价值等对数据进行等级划分,如上表所示,依据分类产生的标签结果,可根据标签定义数据的敏感程度,对数据进行进一步分级。
05 数据分类分级应用实践举例
数据平台对数据分类分级的规划实现架构:
平台以“高密低访”为基本原则,即高密的数据不能被低密的用户访问,高密的用户可以访问低密的数据。通过权限控制与数据脱敏相结合,可以完成更加精细化的数据安全管控场景。
类别管理:对于数据分类下的数据,可以针对不同的人设置不同的数据脱敏方式,达到相同数据展现给每个人不同的结果。在数据没有设置级别时,也可以通过分类达到访问控制的效果。
级别管理:通过对数据、用户设置不同的级别,可以完成对用户访问权限的控制。当用户级别大于等于数据级别时,用户才可访问。
展示层:用于验证数据分类分级的安全管控效果。例如数据是否可访问、是否脱敏。
应用举例:
1.数据说明:
a) 级别定义
本案例采用三级模型:公开、秘密、机密。
b) 设置级别
为数据设置级别:
为用户设置级别:
c) 新建脱敏规则
d) 员工保密数据类别设置脱敏策略
关联数据:id_number
脱敏对象:小B
脱敏规则:身份证号码脱敏
数据总结如下:
数据准备 | 类别 | 级别 | |||
用户 | 财务部门 | 小A | / | 公开 | |
小B | / | 机密 | |||
数据 | 表A | id | 员工id | 员工数据 | 公开 |
name | 员工姓名 | 公开 | |||
id_number | 身份证号码 | 员工保密数据 | 秘密 | ||
salary | 员工薪资 | 安全数据 | 机密 |
2.场景分析:
在数栖平台安全管控下:
小A只能访问id、name数据,当其访问id_number、salary时,会被拒绝访问;
小B可以访问id、name、id_number、salary全部数据;但是当访问id_number时看到的是被脱敏后的数据,例如41111119961127xxxx。