图源 | Internet
陈梦蕾1 罗颖嘉2 朱 侯1
1.中山大学信息管理学院,广州,510006;
2.南洋理工大学数理科学院,新加坡,637371
关键词
隐私政策 诱导同意 扎根理论 K-BERT 网络分析 序列模式挖掘
引用格式
陈梦蕾,罗颖嘉,朱侯.基于扎根理论和机器学习的隐私政策诱导同意研究[J].信息资源管理学报,2024,14(5):75-90.
引 言
随着互联网和数字技术的快速发展,个人隐私信息被非法利用的现象日趋严重,个人信息安全保护备受关注。隐私政策作为连接互联网服务提供方和用户的桥梁,是对个人信息的重要保护方法之一,《信息安全技术个人信息安全规范》《中华人民共和国个人信息保护法》等多部法律法规均对隐私政策规范作了相关要求。其中“告知同意”是我国个人信息保护法构建个人信息处理规则的核心,是对个人知情权、决定权的重要保障。个人信息保护法在多个条文中对告知同意规则做出了详细规定,包括要求个人信息处理者在处理个人信息前,应当以显著方式、清晰易懂的语言真实、准确、完整地向个人告知该法所列举的各个事项;明确个人的同意应当是由个人在充分知情的前提下自愿、明确做出,等等。
然而,许多隐私政策仍存在一揽子授权、强制同意等问题,例如通过模糊概念、捆绑权限、提高用户维权成本等方法诱导甚至强迫用户同意授权、提供信息。一方面,这可能使用户在未能全面评估和理解自己“同意”的情况下就盲目做出同意决定,即便认为条款不理想,也可能因其中的霸王条款而无法拒绝或有所保留,缺乏真正的选择权。另一方面,诱导同意是一个主观性问题,隐藏于隐私政策文本中的诱导同意倾向缺乏明确的评价标准,监管机构难以确定何时存在诱导同意以及何时超出了合理界限,导致审查和监督工作难以进行。在这种情况下,个人信息处理的“告知同意”原则沦为形式,用户隐私信息难以得到安全保障。
为揭示隐私政策诱导同意的概念框架、语义逻辑及我国移动应用市场的诱导同意现状,本文基于人工编码和自动识别方法研究APP隐私政策的诱导同意机制,在帮助用户辨别不公隐私条款的同时,为监管部门核查APP隐私政策提供指导,更好地督促互联网服务提供方制定符合规范的隐私政策。
文献综述
2.1 隐私政策中的知情同意困境
“告知同意”和“知情同意”,两者的英语词源均为“informed consent”, 指告知后的同意。从其英语词源和我国立法表达来看,有将“告知后”或“被告知”推定为“知情”之意。在特定情形下需要保障一方知情利益时,民法往往通过对另一方施加告知、说明义务来实现[4]。在个人信息保护中,告知同意指个人信息处理者告知信息主体信息处理情况,并由信息主体自主决定或选择,因此又被称为“告知—同意/选择”[5]。
诸多法学、社会学、传播学等领域的研究分析了个人信息保护中知情同意的困境,质疑实践中知情同意的有效性。隐私政策作为告知同意的常见表现形式,许多研究直接将对知情同意的批评与隐私政策联系起来,如隐私法专家丹尼尔·索洛夫教授就基于隐私政策将对告知同意的批评归纳为层层递进的四个方面:①人们拒绝阅读隐私政策;②即使阅读也无法理解;③即使阅读并理解,但由于缺乏足够的背景知识而无法作出明智选择;④在阅读、理解并作出明智选择的情况下,这些选择可能因各种决策困难而被歪曲[6]。
部分研究从知情同意规则的理论基础出发,提出其理论假设与隐私政策的场景并不适配,包括理性人假设、个人信息自我控制理论、公私二元区分预设[7]等。首先,理性人假设对主体提出了完全理性、完全意志力和完全自利三项假设[8]。知情同意规则假设每个信息主体都具备独立、理性地管理个人信息的能力,认为每个信息主体都能作出是否同意个人信息被处理的理性决策[9]。而王俐智[8]提出的信息主体通常不阅读隐私政策行为决策、乐观主义态度等观点都体现了信息主体并非完全理性人。陈黎明[10]认为用户对于未来概率事件倾向于作出乐观风险决策,在日常生活中作判断也更依赖于生活经验而非专业理论。其次,个人信息自我控制理论也同样难以应用于隐私政策场景。根据个人信息自我控制理论,信息主体享有三点自由,即是否允许其个人信息被处理的自由,选择信息处理者的自由,决定信息处理者获取、处理其个人信息的范围和方式的自由[11]。但在当前隐私政策模式下,信息主体无权自主选择个人信息处理的范围和方式,只能选择是否全盘同意网络服务者的个人信息处理方案[12],导致个人信息自我控制的失效。
还有研究在实践层面提出隐私政策中知情同意原则的困境,主要从知情与自愿同意两个方面进行讨论,研究共同发现,信息处理者和信息主体间的不对等导致了个体的同意常是被支配或被操控下的非真实意思表示。范海潮等[13]提出网络运营商与用户的权利不对等导致告知义务与知情权利失衡,而不同意即退出的架构导致用户决定权失灵。黄怡帆[14]认为目前隐私政策中知情同意异化形式之一是网络服务平台和信息主体处于一种非平衡的强弱关系之下,同意成为信息处理者收集信息的合法手段,而用户的自决意愿却在不断地被削弱。罗陈鑫[6]也提出即使假设信息主体处于一个相对知情的状态,其同意的真实性仍然难以得到保证,各平台普遍采用的“不同意即退出”模式更放大了这种不对称性。除此之外,丁晓东[15]还提出在面对信息处理者的多重目的时,用户常难以对所有目的进行“颗粒化”的分析,最终导致同意机制的异化。
总的来说,现有研究虽未明确提出隐私政策诱导同意的概念,但对隐私政策中知情同意的问题分析已较为清晰。因此,本文将研究的核心概念,即隐私政策的诱导同意确定为:在隐私政策条款中,信息处理方凭借自身的绝对优势,通过诱导或变相强制的手段使用户即便在相对知情的状态下,也难以理智或自愿作出选择,最终达成未能完全反映信息主体自由意志的同意。基于该定义,下面对基于内容分析的隐私政策诱导同意研究进行进一步梳理,以了解诱导同意在隐私政策中的部分体现形式,为隐私政策诱导同意编码体系的构建提供基础。
2.2 隐私政策诱导同意相关研究
基于对隐私政策的内容分析,部分研究从整体的角度指出隐私政策存在诱导同意倾向,如徐磊等[10]通过对图书类APP隐私政策进行文本研究发现,读者难以就隐私政策与运营商进行平等对话和充分协商,在大多数情况下读者只有同意隐私政策才能使用。范慧茜等[16]发现百度和谷歌的隐私政策都存在实质侵害网民隐私信息的行为和倾向,但其声明都通过巧妙的措辞,让用户产生一种网站在承诺保护网民的隐私权的错觉。
还有部分研究指出了隐私政策中具体的诱导同意问题,如强制同意、一揽子授权、模糊概念等。例如廖秉宜等[17]通过对APP隐私政策中关于cookie技术条款的分析,指出平台对告知同意、公开透明原则落实得不彻底,“一揽子同意”模式盛行,隐私政策中广泛存在同意隐私政策与同意cookie追踪等功能绑定的情况;陈诗洋等[18]对短视频APP隐私政策的研究发现,隐私政策中涉及第三方信息收集的规则常出现一揽子授权的情况,并且部分条款表述存在模糊、泛化或倾向性用词;马骋宇等[19]指出我国移动医疗APP对于征求用户同意、获取用户授权方面存在一定程度上通过绑定服务或降低服务质量绑架用户的情况;张明鑫等[20]通过代表性互联网平台隐私政策的内容分析发现,平台在隐私政策中利用自身的话语主导地位,在内容表述上存在放大用户成本、推诿责任、一揽子授权的行为,以获取用户的默认同意。
综上所述,现有研究主要是在法律和社会学层面探究告知同意的困境,虽提出了隐私政策文本中存在诱导同意的问题,但未能以诱导同意为核心对隐私政策文本进行全面分析,挖掘隐私政策诱导同意的具体体现及逻辑。因此,本研究选择采用扎根理论的方法,对隐私政策进行资料收集和质性分析,以从用户视角总结分析隐私政策中的诱导同意特征。同时,为进一步分析隐私政策诱导用户同意的深层规律,本研究将在扎根理论构建的隐私政策诱导同意编码体系的基础上,建立隐私政策诱导同意语料库,通过半监督学习训练出可自动识别隐私政策中含诱导同意倾向语句的模型,进而实现大规模隐私政策文本的分析,即通过网络分析、序列模式挖掘等方法探究隐私政策的诱导同意规律。
隐私政策诱导同意识别模型
3.1 数据采集
华为在全球手机出货量方面位列前茅,因此华为应用市场作为华为手机自带应用商店产品,也拥有庞大的用户规模。2021年华为应用市场全球应用分发规模已达到4320亿次[21]。华为应用市场上各APP有链接指向最新版隐私政策,易于收集,因此,本研究选择在华为应用市场中爬取APP隐私政策文本。本研究收集了全部领域的APP隐私政策文本,共采集三轮数据,具体说明如表1所示。
表1 数据采集说明
3.2 诱导同意倾向编码体系
研究采用扎根理论,选取部分隐私政策文本进行内容分析,熟悉其语言描述特征,识别出其中存在诱导同意倾向的语句并整理归纳。由于较为成熟的APP有庞大的用户群体,同时也是各领域市场内学习和效仿的标杆,分析各领域头部APP所总结的诱导特征具有更强的代表性与实践意义。此外,成熟APP的隐私条款完整度更高[22],更为全面地覆盖了个人信息保护法所规定的条款类别,更有可能体现多维度的诱导同意特征。因此,本文在研究覆盖的16个领域内选择下载量较高的20个APP,将其隐私政策文本作为内容分析的对象,APP领域来源与名称如表2所示。
研究利用Nvivo12对隐私政策文本内容进行逐级编码。Nvivo12是一款专业的定性研究软件,能够支持对结构化或非结构化的文本、网页内容等资料进行编码、分类和组织等。通过比较和分析开放式编码、主轴编码的结果,并结合隐私政策诱导同意的相关研究成果,构建出诱导同意语句编码体系。
表2 APP隐私政策内容分析调研列表
3.2.1 开放式编码
通过对20篇隐私政策文本的混合语料进行归纳总结与剔除修正,共提炼出51个初始概念(a1~a51),并将51个初始概念进行比较合并,形成“合理范围”等27个基本范畴(b1~b27),结果示例如表3所示。
表3 部分开放式编码结果示例
3.2.2 主轴编码
主轴编码又被称作二级编码,是对开放式编码结果的进一步分析,从而挖掘出初始概念之间更深层的潜在关系,识别出更具有代表性和识别度的主范畴。对开放式编码得到的51个初始概念和27个基本范畴进行提炼整合,最终提炼出10个主范畴(c1~c10),如表4所示。
模糊概念(c1)。编码的部分隐私政策使用“合理范围”“必要期限”“为实现…所必需”等模糊性词语来传达收集、存储、使用用户信息的必要性,可能会在一定程度上降低用户对个人信息风险的感知,进而作出同意。并且如若产生纠纷,这些模糊表述给互联网服务提供方在解释相关条款时有较大的发挥空间。
捆绑权限(c2)。隐私政策样本中所存在的“您开启该权限即视为您授权我们可以访问、获取、收集、使用您的个人信息”(a7),可以通俗理解为“您开启您家大门即视为您授权我们进入您家里访问、获取、收集、使用您的相关物品”,这显然是不合理的。在隐私政策将开启权限和授权权限捆绑起来的情况下,用户完全有可能在不知情的情况下将个人信息授权给互联网服务提供方。再者,部分APP表示若注销账号将影响其他应用的使用,比如“一旦您注销百度账号,将无法使用百度公司全线用户产品的服务”(a6),当用户想注销账号时,这种账号之间的绑定将影响用户决定是否继续注销账号,即诱导用户继续使用该APP,使用其隐私管理服务。
用户维权成本(c3)。编码的隐私政策中提到关于用户提出疑问的答复期限大多是15天,时间跨度之长足以让用户不愿提出疑问或在提出疑问后忘记关注该问题,导致该维权途径利用率不高。其次,隐私政策表示用户可以向所属地法院提起诉讼,然而服务提供方相比于普通用户,在经济实力和诉讼能力上具有极大的资源优势,大多数用户往往不愿意采取如此强硬的手段来维护个人信息利益。
隐私管理成本(c4)。编码的部分隐私政策提到“您可选择关闭推送信息,具体可前往【我】-点击左上角-【设置】-【隐私设置】-【个性化选项】关闭个性化推荐机制”(a12)等隐私管理方式,用户需要经过5次左右的点击才能进入对应的隐私信息管理页面。还有一些隐私管理需“通过发送退订短信”“在设备中设置管理权限”等离开APP的复杂操作实现。这些都可以归纳为通过提高隐私管理界面的进入难度来减少用户隐私管理行为,诱导用户维持现状。
用户机会成本(c5)。隐私政策样本提到较多的“如果您不提供该信息,您将无法使用该功能”(a14,a15)等类似语句,近似于强迫用户牺牲个人隐私来换取服务和使用体验。
强制命令(c6)。首先,关于个性推荐广告或其他消息,隐私政策样本中提到“当您选择关闭个性化推荐后,您所看到的消息数量不会减少”(a16),意味着该类消息是强制推送而无法关闭的。其次,关于同意隐私政策和使用APP之间的关系,隐私政策表示“如果您不同意本政策的内容,您应立即停止访问/使用我们的产品与/或服务”(a18),这种强制语言迫使用户必须勾选同意隐私政策。除此之外,隐私政策提出“在下列情形中,互联网服务提供方转移、公开用户个人信息无须征得用户的授权同意”(a20),并用模糊表述列举“出于维护个人信息主体或其他个人的生命、财产等重大合法权益但又很难得到本人同意”(a3)等情形。
保留解释(c7)。隐私政策样本中涉及到诸如“若另行告知的内容与本指引不一致的,以另行告知的内容为准”(a22)、“由于…的差异,具体的…请以…为准”(a25)等说明。互联网服务提供方称其会根据事件发生的具体情况进行处理,但用户无法得知所有可能情形及相应的处理方式,属于在未完全知情的情况下作出同意,难以主动维护个人信息安全。
默认同意/理解(c8)。部分互联网服务提供方在隐私政策中提到“一旦您使用或继续使用我们提供的产品与/或服务,即表示您充分理解和同意本隐私政策(包括更新版本)的全部内容”(a34),即直接默认用户理解同意隐私政策。此外,更有互联网服务提供方强行解释“授权同意”,即“授权同意是指您对您个人信息进行特定处理作出明确授权的行为,包括通过积极的行为作出授权(即明示同意),或者通过消极的不作为而作出授权(如信息采集区域内的您在被告知信息收集行为后没有离开该区域)”(a33)。只要用户使用或继续使用APP,就不得不同意隐私政策中的条款,也就同意了此类默认授权同意条款。
推卸责任(c9)。有部分互联网服务提供方通过表达“请您关注您监护的未成年人是否是在取得您的授权同意之后使用我们的服务”(a39)、“在您使用…服务过程中,我们推定您具有相应的民事行为能力”(a40)等,将处理未成年人信息的部分责任推卸给了监护人,默认互联网服务提供方具有对用户信息进行处理的权利。
用户责任(c10)。部分隐私政策通过表达“您需在公开发布他人信息前征得他人的同意”(a45)、“请妥善保管好您的密码等其他个人信息”(a50)、“请您阅读、理解、同意隐私政策后再使用APP”(a51)等提示性语句来将责任推给用户自身,间接提高用户对“如若隐私泄露,责任在己”的认同感。
至此,本研究构建了用于分析隐私政策诱导同意倾向的10个编码指标,分别为模糊概念、捆绑权限、用户维权成本、隐私管理成本、用户机会成本、强制命令、保留解释、默认同意/理解、推卸责任、用户责任。
表4 主轴编码结果
3.3 语料标注与数据增强
依据基于扎根理论构建的编码体系,利用Brat工具对文本集1的102份APP隐私政策进行人工标注,Brat是Linux系统下的一款应用于Web Server端的文本标注工具,用于向现有文本文档添加注释。标注后一共得到2,088条数据。
由于成本类与推卸责任诱导同意语句在隐私政策样本中一般以大段描述性文字的形式集中出现,而其他维度语句出现相对较为分散且描述简短,因此标注数据集呈现指标不平衡的现象,模糊概念、捆绑权限、强制命令、保留解释、默认同意/理解与用户责任这6个指标的对应语料较少。为避免模型过拟合,研究采用数据增强的方法,利用Synonyms库对文本数据进行同义词替换,该库基于哈工大同义词词林编撰的词典实现。具体替换过程要求替换词和被替换词的相关度大于0.85,且增强产生的文本与原始文本的相似度需无限接近1。最终将数据量扩大了1倍,10个指标共有2,974条数据用于训练初始模型。
3.4 模型构建
本研究选用K-BERT模型完成文本分类任务。Liu等[23]在2020年提出K-BERT,该模型将通用知识图谱嵌入BERT分类模型中,使机器能够利用相关领域知识进行推理,在特定领域的任务中,K-BERT表现明显优于BERT。K-BERT的预训练阶段不融入知识图谱,而是将知识图谱融合到BERT分类训练中。K-BERT配备了可编辑的知识图谱,本研究选择在分类模型中融入CN-DBpedia以提高分类准确性。此外,由于时间等成本限制,可人工标注的数据量有限,因此采用半监督学习的方式训练模型,通过在模型训练中引入无标记样本来避免训练样本不足时出现模型欠佳的问题[24]。具体训练过程如下:
首先,将数据增强后得到的2,974条数据进行训练得到模型一。随后利用模型一预测文本集2中属于“影音娱乐”“实用工具”“社交通讯”和“教育”的476篇隐私政策文本,对模型识别出来的结果进行人工干预,即检查所有分类结果,剔除其中分类错误的数据,共得到3,026条分类准确的数据。与前述2,974条数据合并后共计得到6,000条数据,再进行模型训练,得到模型二。
随后,利用模型二预测文本集2中属于“新闻阅读”“拍摄美化”“美食”“出行导航”和“旅游住宿”领域的585篇隐私政策文本,对模型识别的结果进行人工干预,共筛选出6,088条分类正确的数据。为避免标签不均影响模型效果,利用模型二预测文本集余下领域的714篇隐私政策文本,对其中样本较少的标签进行针对性补充,本轮筛选最终共得到6,875条数据。
最后,将第二轮预测筛选所得6,875条数据与第一轮的6,000条数据合并,共得到12,875条数据,用于重新训练模型,得到模型三,即最终模型。本研究采用精确率Preci-sion、召回率Recall、F1 Score来评价模型效果,最终模型效果如表5所示。
表5 模型训练效果
实证分析
2023年4月爬取的文本集3经数据清洗后得到5,906篇隐私政策,这些隐私政策涉及16个领域,如表6所示。利用训练好的模型识别5,906篇隐私政策中的诱导同意倾向语句,模型预测概率阈值设置如表7所示。
表6 5,906篇待预测隐私政策概览
表7 各维度的模型预测阈值
4.1 描述性统计
5,906篇隐私政策中共识别出316,247个存在诱导同意倾向的语句,平均每篇隐私政策有54句。其中,金融理财领域平均每篇隐私政策含有的诱导同意倾向语句最多,有72句相关描述。而拍摄美化领域最少,平均每篇有36句相关描述。统计10个诱导同意维度的语句数量及分布特征,结果如表8所示,从数量上看,模糊概念、隐私管理成本、用户机会成本在隐私政策中出现的频率较高,而捆绑权限相关的描述最少;从分布上看,集中趋势最明显的是捆绑权限,离散程度最大的是隐私管理成本,其次是用户机会成本。
对比不同领域APP隐私政策诱导维度语句数量,如图1所示。可以看出,模糊概念语句在实用工具等11个领域中占比均是最高的;在影音娱乐、社交通讯和新闻阅读这三个领域中,涉及隐私管理成本的诱导同意语句占比最高;儿童领域的APP隐私政策中,推卸责任的语句占比最高,且远高于其他领域;而金融理财领域的隐私政策更多地在用户机会成本方面诱导用户。除此之外,整体上对比不同领域APP隐私政策中各诱导同意维度语句占比情况,可以发现,不同诱导维度的占比情况大体比较相近,较少出现某一领域中某维度语句数量占比存在较大差异的情况,这说明不同领域APP隐私政策的诱导同意情况实际较为相似,对全部隐私政策进行分析得到的诱导规律在不同领域APP隐私政策中都具有较强的适用性。
表8 描述性统计结果(N=5906)
图1 各领域隐私政策诱导同意维度组成
4.2 基于网络分析的诱导维度关联分析
为了更加深入地了解隐私政策诱导同意维度体系的内在关联,本研究进一步运用高斯网络分析方法,对隐私政策诱导同意维度重要程度以及相互影响关系展开深入分析,并在此基础上对比分析不同领域APP隐私政策的诱导特征。高斯图模型是一种基于高斯分布假设的无向概率图模型,相比于一般线性相关性分析,该模型能够捕捉变量之间的非线性关系和复杂的条件依赖关系,并能通过图结构清晰地展示变量之间的关联,具有良好的可解释性。具体而言,本研究采用R语言中的BGGM(Bayesian Gaussian Graphical Models)分析包进行分析,BGGM包提供了在高斯图模型中进行贝叶斯推理的工具,在高斯图模型的基础上引入了偏相关关系的探索性和验证性贝叶斯检验[25],可用于验证性假设、比较高斯图形模型、节点可预测性等[26]。
4.2.1 整体诱导维度关联特征
以5,906篇隐私政策样本为对象,统计每条样本中各诱导维度出现的频次,在此基础上将各诱导维度作为网络节点,将维度之间的相互关联定义为网络连线,开展贝叶斯高斯网络分析。可以看出,该关系网络共包含10个节点,对应隐私政策诱导同意的10个维度。网络稀疏性为 0.178,对应网络密度为 0.822。网络密度指网络中实际存在的边数和可容纳的边数上限的比值[27],值越接近1表明联系越紧密。网络密度为 0.822 说明该隐私政策诱导同意网络中超 80%的边具有联系,各个诱导维度并不是相互独立的,而是相互关联形成一个紧密的网络整体。
根据诱导同意维度关系矩阵构建隐私政策诱导同意维度关系网络,选择fruchterman-reingold布局形式,节点间作用力的大小由相关关系决定,结果如图2所示。其中绿色线条代表正相关,橙色线条代表负相关,连线越粗表示相关性越强。
从整体网络结构可以明显看出,用户机会成本、隐私管理成本、模糊概念处于网络的中心位置,表明这三个节点对于整体网络的控制和影响作用最大,是诱导同意的关键维度,在实际中会对隐私政策的诱导同意倾向产生较大的影响。其中,推卸责任、默认同意/理解、保留解释、捆绑权限在网络图中处于边缘位置,且和其他节点的关联较弱,表明其在隐私政策中属于较为独立的诱导维度。
从节点间相关关系来看,网络节点基本均为正相关关系,即某一诱导维度倾向的提高会引发其他维度倾向的增加,这说明对核心关键维度进行治理能有效降低隐私政策的诱导同意倾向。其中,模糊概念和强制命令的正相关系数最高(r=0.335),默认同意/理解与隐私管理成本的负相关系数最小(r=-0.130)。表明隐私政策中模糊概念出现得越频繁,强制命令语句也会越多;而默认同意/理解的描述增多,关于隐私管理成本的描述会相应减少。
图2 隐私政策诱导同意维度关系网络(N=5906)
4.2.2 各领域诱导维度关联特征对比
同理,分别以16个领域的隐私政策样本为对象,开展贝叶斯高斯网络分析,构建诱导同意关系网络,其中影音娱乐领域的结果如图3所示,其余领域结果图见附录,其中nd表示网络密度。
从网络密度上看,“出行导航”和“儿童”两个领域APP的隐私政策诱导网络密度最低,且网络结构较为简单。低网络密度意味着隐私政策的相对简单,这些领域的用户在阅读隐私政策时的隐私选择会更直接,较少需要复杂的权衡。而影音娱乐、新闻阅读和购物比价APP领域具有高网络密度,隐私政策中存在许多相互关联的因素。
从各领域网络维度节点的分布来看,模糊概念在多个领域诱导网络中都处于核心位置,包括影音娱乐、实用工具、社交通讯、拍摄美化、教育、运动健康、汽车。推卸责任、用户责任在影音娱乐、美食、出行导航、金融理财中位于关键位置。从用户主动管理与关注个人隐私问题行为成本出发的两个维度,隐私管理成本与用户维权成本,在多个领域中同时或单独位于网络中的关键位置,包括社交通讯、教育、新闻阅读、美食、旅游住宿、购物比价、儿童。默认同意/理解在购物比价、运动健康这两个领域网络中位于关键位置。强制命令在出行导航、旅游住宿、商务、金融理财、便捷生活网络中作为中心节点出现。
此外,观察不同诱导网络中较为独立的边缘节点可以发现,捆绑权限在教育、购物比价、运动健康、汽车领域的网络中均处于非常边缘的位置,只与网络中的单个维度有相关关系;推卸责任虽然在多个网络中位于关键位置,但在儿童领域的网络中只与强制命令具有相关关系,位于网络边缘,属于较为独立的诱导维度。
图3 影音娱乐诱导网络(N=390,nd=0.49)
4.3 诱导逻辑分析
APP隐私政策文本的篇幅一般较长,整体结构层次普遍比较明晰并具有一定的规律性,而这样不同类型条款语句的分布及顺序逻辑关系在一定程度上可能会对用户的认知产生影响,如巧妙排列导致用户对某些关键信息的忽视。因此,隐私政策中各诱导同意维度的分布及排列规律也应属于隐私政策诱导同意的关键特征。本部分将对已识别的5906篇隐私政策文本数据进行再处理,以探究隐私政策在整体框架上逐层深入诱导用户同意的逻辑。同时,基于完整序列数据样本,更细粒度地挖掘隐私政策中诱导同意维度语句的顺序规律,从多个维度分析隐私政策行文中的诱导同意手段。
4.3.1 整体诱导逻辑结构
为探究各诱导同意维度出现的整体结构特征,需对表示隐私政策文本的不等长编号序列进行浓缩统一。将指标出现位置最集中且最靠前的位置作为该指标的唯一位置,得到浓缩后的序列数据。按领域分别统计10个诱导同意维度位置顺序的平均值,得到的结果如图4所示。
从图4可以看出,在这些隐私政策中,10个诱导同意维度出现的先后顺序可大致总结为:用户机会成本—默认同意/理解—捆绑权限—用户责任—强制命令—保留解释—模糊概念—隐私管理成本—推卸责任—用户维权成本。在所有领域中,最后依次出现的基本均是推卸责任和用户维权成本这两个维度的相关描述,而用户机会成本、默认同意/理解的相关语句会在靠前的位置出现。而保留解释维度在不同领域中出现的位置差异较大,在社交通讯、美食、购物比价领域位于相对靠前的位置,而在实用工具、拍摄美化、儿童领域却位于相对靠后的位置。
此外,对比不同领域的维度序列可以明显看出,儿童领域与其他领域隐私政策有较大差异。儿童领域中,强制命令出现在第三位,而其他领域的强制命令出现在第四至第六位;与其他领域的推卸责任均出现在第九位不同,儿童领域中推卸责任出现在第七位。
图4 各领域隐私政策中各诱导同意维度的平均出现顺序
4.3.2 基于序列模式挖掘的诱导规律分析
为探究隐私政策行文中的具体诱导逻辑,研究进一步采用序列模式挖掘算法对未进行浓缩处理的完整序列数据样本进行分析。序列模式算法可以发现序列数据中频繁出现的模式,用于挖掘序列数据中的顺序规律。本研究采用PrefixSpan序列模式挖掘算法进行分析,以支持度和置信度作为衡量指标。支持度(support)表示在所有的数据记录中,同时发生某事件的概率,见公式(5)。置信度(confidence)表示在所有的数据记录中,在发生事件A的情况下发生事件B的概率,也就是条件概率,见公式(6)。
设置最小支持度为0.7,最小置信度为0.85,对全部隐私政策进行序列模式挖掘,共挖掘出窗口数(序列模式包含的维度个数)为2到9的序列模式744条。考虑到不同窗口大小的序列模式可能存在一定的重合与组合关系,如('9', '5')、('9', '8')、('9', '5', '8'),并且由于部分维度的语句会在同一位置多次出现,相同窗口大小的序列模式也可能较为相近,反映了相似的隐私政策行文特征,如('9', '5', '0', '0', '8', '8', '8')与('9', '5', '0', '0', '0', '0', '8')。因此,对挖掘出的744条序列模式进行人工筛选与分析,总结序列挖掘结果中凸显的行文规律。
从序列模式的整体构成上看,挖掘出的序列模式均由模糊概念、隐私管理成本、用户机会成本、强制命令、推卸责任与用户责任这几个维度组成,说明这些诱导同意维度语句在隐私政策文本中出现较频繁并会与其他维度的语句按一定规律交替出现,而捆绑权限、用户维权成本、保留解释、默认同意/理解这四个维度未出现在挖掘出的序列模式中,说明这些诱导维度出现的位置较为灵活,多为独立发挥作用,而非与其他维度语句连续共同出现产生作用。除此之外,模糊概念、推卸责任语句会大量、集中地出现在隐私政策文本中,在5906篇隐私政策样本中,76.3%以上的样本中会连续出现7句及以上的模糊概念语句,77.3%以上的样本会连续出现5句及以上的推卸责任语句。并且,隐私管理成本、用户责任语句也会在隐私政策中有相对集中出现的情况,分别有72.5%和74.0%及以上的样本中连续出现4句及以上的相关维度语句。
从多维度组合形成的具体序列规律上看,首先,与模糊概念和推卸责任相关的大量语句会连续出现,但先后顺序不定,79.1%以上的样本中会有推卸责任语句出现在多个模糊概念语句后的部分,74.5%以上的样本中包含推卸责任语句出现在多个模糊概念语句前的子序列,73.5%的样本会出现这两个维度语句交替出现的子序列。此外,模糊概念和推卸责任维度先后组合的结构也常出现在许多其他序列模式结果中,通常以“单个或少量其他维度语句—大量模糊概念语句—少量推卸责任语句”的形式出现,如75.0%以上的样本中会出现“用一到两句话说明用户责任,紧接着采用大量模糊性语句,最后再进行责任推卸”的部分。由此可见,模糊概念和推卸责任在诱导性行文模式形成中发挥着重要作用。
除此之外,在序列模式结果中,还常会出现单个强制命令语句紧跟在其他维度语句后,共同构成诱导序列,形式可概括为“单个其他维度语句—单个强制命令语句—其他维度语句(模糊概念/推卸责任/其他)”,如72.2%以上的样本中出现了“1-2句用户机会成本描述语句—单个强制命令语句—多个模糊概念语句”的子序列。可推测强制命令语句作为中间角色出现,可在一定程度上平衡用户对隐私授权的成本与收益感知。
序列模式结果中也还存在一些其他特征,如隐私管理成本语句会经常大量出现在其他维度语句后,体现为“少量其他维度语句/不同维度语句组合—大量隐私管理成本语句(—其他维度语句)”,如71.4%以上的样本中存在两句用户机会成本描述语句后紧跟大量隐私管理成本的语句形式,通过突出强调管理成本促使用户默认平台可能并不公平的管理模式。并且,在所有序列模式结果中,用户责任、用户机会成本语句一般出现在序列的头部,较少作为序列中间或者尾部的元素出现,通过引导用户关注自身责任以及拒绝隐私政策会带来的损失,而忽视后文的不对等话语。
总结
5.1 结论与讨论
本研究基于用户感知视角,综合运用定性与定量分析方法,对隐私政策诱导同意的内容特征及关联机制进行了深入分析。一方面,通过质性分析隐私政策,总结出了当前APP隐私政策中的诱导同意表现形式。在隐私政策诱导同意编码体系的基础上,构建隐私政策诱导同意语料库,训练机器学习模型,实现了隐私政策中诱导同意倾向语句的有效识别,可为相关部门高效监管APP隐私政策提供帮助。另一方面,通过训练模型并将其应用于大规模隐私政策分析,研究发现了隐私政策诱导同意的关键因素以及不同领域APP隐私政策的特征,并得到隐私政策逐层深入诱导用户同意的整体逻辑架构和行文规律。下面本文将对其中重要的研究结论做进一步的总结和讨论,为隐私政策诱导同意特征的认识与管理更好地提供帮助。
首先,基于网络分析和序列模式挖掘的结果发现,采用大量模糊性语句、推卸服务提供方自身责任、强调用户主动进行隐私管理的成本并夸大用户个人需承担的责任是互联网服务提供商诱导用户同意隐私政策的核心手段。其中,模糊概念、隐私管理成本以及用户机会成本属于诱导同意关系网络的核心,会对其他维度的出现产生显著影响。模糊性语句增加了用户对政策内容理解和影响判断的不确定性,而突出用户隐私管理和机会成本的语句,影响用户的利弊权衡,可能直接促使用户简化决策或默认同意。因此,三个维度的内容在隐私政策诱导同意“行文风格”的形成中起到重要作用,影响着其他诱导同意语句的出现,对其进行重点关注和规范或许可以有效控制隐私政策的诱导同意倾向。
其次,将地位明显不对等的陈述与大量模糊概念、推卸责任语句结合起来先后出现以提高用户接受度,也是隐私政策诱导同意的常用手段。基于序列模式挖掘的结果发现,模糊概念和推卸责任这两个维度在隐私政策进行模式化诱导性行文中发挥着重要作用,通常密集地出现在强制性、命令性的语句或夸大用户责任的条款之后。这类条款描述中往往充斥不公平感,用户与服务提供方地位明显不对等的特征十分显著。但互联网服务提供方通过在其后刻意地模糊其个人信息处理行为,如将收集行为描述为在 “所必要的时间内”、在“合理范围”收集“必要的个人信息”,降低用户对平台进行信息收集的风险感知与敏感度,同时又通过向第三方推卸责任的方式实现减轻自身义务、规避某些法律风险的目的。除此之外,强调用户隐私管理成本的语句也常承担让用户“放弃抵抗”的角色,大批量地出现在明显不公平的条款之后,突出用户保护其个人信息行为的成本,最终导致用户即便对其个人信息处理行为存在不满,最终也会倾向于接受平台默认的管理模式而不再做出改变,将主动权几乎完全交由互联网服务提供方。
再次,儿童领域APP隐私政策表述相对更为规范,诱导核心更侧重于将责任转嫁给监护人,以推卸自身责任。通过对不同领域诱导网络和逻辑框架的对比发现,儿童领域与其他领域APP隐私政策的诱导同意特征存在显著差异,具体体现在推卸责任相关语句的数量和出现位置,并且诱导网络结构也更简单。前者可能由于儿童领域APP主要服务的对象是未成年人,因此APP服务提供方会更多地将责任转嫁给监护人。然而实际上,让未成年人自行寻求监护人同意缺乏可行性,通常未成年人在此类场景下不愿意让监护人知悉,更难谈及让监护人同意[28]。同时,“一刀切”式的同意要求将儿童个人信息保护责任过多地加诸监护人身上,很可能导致监护人“同意疲劳”,难以对儿童个人信息处理行为作出准确理解和判断[29]。此外,由于儿童领域APP中涉及未成年人的隐私保护,有更严格的法律要求和道德标准,如在《个人信息保护法》中,不满14岁未成年人的个人信息直接被归为敏感信息范畴内。因此,面向未成年人提供服务的APP隐私政策表述也相对更加规范,而非通过巧妙地表述和布局设置“陷阱”,实现收集大量个人信息的目的。
最后,各领域APP隐私政策诱导同意具有其内在特征,需要针对性地进行重点审核与监管。研究发现部分领域的APP隐私政策间存在共性特征,这一点可能与各领域APP的服务提供方式与商业逻辑的相似性有关,例如影音娱乐、新闻阅读和购物比价的隐私政策诱导网络表现了更高的复杂性,原因可能是这些类别的APP通常需要处理大量的个人数据,包括用户的偏好设置、浏览记录等,以实现更精准地商业性的个性化推荐、广告定位的目的。因此,这类APP隐私政策可能会出现更多强制性、诱导性的语句,通过巧妙的行文引导用户同意隐私政策,开放更多个人信息权限。据此可知,在对APP隐私政策进行监督管理时,可以结合其具体业务逻辑和服务提供方式,有针对性地进行审查。也可基于本研究结论,对相应领域隐私政策诱导同意网络中的关键节点进行重点审查与管理。
5.2 不足与展望
本研究还存在一定的不足之处,如在序列模式挖掘的部分,仅通过人工总结序列模式结果的方式来分析挖掘结果所体现的显著特征,而未对序列模式进行完整地呈现,并且归纳的规律存在一定的主观性。未来可以考虑对序列模式挖掘算法进行优化,如加入对频繁出现维度的惩罚项,使最终呈现的结果更加简洁且更具代表性。此外,本文仅以隐私政策文本特征为切入点进行分析,后续研究有待在本文结论的基础上,从用户角度出发,通过问卷、访谈等多种方法探究用户对隐私政策中各类不公条款与不同呈现形式的态度,挖掘隐私政策诱导用户同意的关键特征。
附录下载地址 https://github.com/hou-im/pic-jirm。
参考文献
作者简介
* 原文载于《信息资源管理学报》2024年第5期,欢迎个人转发,公众号转载请联系后台。
* 引用格式
陈梦蕾,罗颖嘉,朱侯.基于扎根理论和机器学习的隐私政策诱导同意研究[J].信息资源管理学报,2024,14(5):75-90.
往期 · 推荐
制版编辑 | 周凡倩
审核 | 于 媛
长按识别二维码关注我们
信息资源管理学报
分享、在看与点赞
只要你点,我们就是朋友😊