AIGC中数据治理的“科林格里奇困境”

文摘   科技   2024-08-10 15:42   美国  

祝融

编辑郭嘉

--->更多内容,请移步“鲁班秘笈”!!<---


科林格里奇困境:新技术尚未出现或刚刚出现,如果为了规避不良后果而过早或过度实施限制,则难以发挥新技术的积极作用;反之如果控制得过晚或过于宽松,那么有可能会走向失控,致使解决问题的成本高昂。

背景

OpenAI本周向英国议会委员会大胆断言,如果不使用大量受版权保护的数据,将“不可能”开发当今领先的人工智能系统,从而掀起波澜。在书面证词中,OpenAI表示,在广泛的版权法和无处不在的受保护在线内容之间,“几乎所有类型的人类表达”都将是训练数据的禁区。从新闻文章到论坛评论再到数字图像,很少有在线内容可以自由合法地使用。

根据 OpenAI 的说法,在避免侵犯版权的同时创建有能力的 AI 的尝试将失败:“将训练数据限制在一个多世纪前创建的公共领域书籍和绘图中…………无法提供满足当今公民需求的人工智能系统。在为其做法辩护认为合规的同时,OpenAI承认,与出版商的合作伙伴关系和补偿计划可能需要“支持和赋予创作者权力”。但该公司没有表示打算大幅限制其对在线数据的收集,包括付费新闻和文学。这种立场使OpenAI面临多起诉讼,包括《纽约时报》等媒体指控侵犯版权的诉讼。

尽管如此,OpenAI似乎不愿意从根本上改变其数据收集和训练过程——考虑到自我施加的版权限制会带来“不可能”的限制。相反,该公司希望依靠对合理使用津贴的广泛解释来合法地利用大量受版权保护的数据。



AIGC管控策略


欧盟的《人工智能法案》是较为明显的前置监管。将评估后的AI划分为低风险、有限风险、高风险与不可接受风险四个等级,并基于不同等级采取差异化监管以及高额的违规罚款。该前置监管的做法一方面需要AI相关企业承担更多的前置成本,同时也因为预估到风险的不确定性而影响投资与发展的热情。

美国在立法、制度建设层面上对AIGC的规制尚处于弱监管、较少干涉的态势,属于先发展再治理的监管。其尚未出台统一规范制度,而是通过对重点领域的规划、方案等形式进行强鼓励、弱监管,社会及市场层面更是以积极开放的态度鼓励AIGC技术的研发与应用。

我国对于AIGC领域的规制主要采取区分技术方向与业务领域的管理,并随着时代发展特征及时完善或出台新的规范性文件,但尚未上升至法律层面,属于发展与规制同步的监管。我国对于AIGC的规制主要是基于主体责任的治理模式,《生成式人工智能服务管理办法(征求意见稿)》强调了生成式人工智能产品提供者、服务者的责任,明确向监管部门备案和申报安全评估的硬性要求等。


AIGC与数据合规


AIGC的技术能在其生态的全流程治理中提供工具手段,而数据合规的治理又能保障AIGC的风险监管可控。


AIGC对数据合规治理的影响:

  • AI改变数据治理阶段中数据处理方式。例如,元数据管理,在数据组织的过程中,可利用ChatGPT进行元数据的自动内容揭示与标引,如生成名称、摘要、来源等,在海量元数据基础上进行一步夯实本地化建设,以便高效完成数据管理和构建数据集;

  • AI打破数据治理中数据流转链条,例如,多领域融合的数据治理工作,AIGC能够关联文本、图片、音视频的多模态技术,帮助处理多元异构数据资源融合与重组,进而实现跨模态数据内容生成,提升数据治理工作的智能化水平与精准服务效能;

  • AI升级治理手段,例如,使用AIGC进而完成细粒度知识元抽取与关键数据集构建。

数据治理保障逆向保障AIGC持续发展

  • 语料治理,例如,数据合规治理能够在内容、质量、体量方面优化AIGC基础数据,有效规避AIGC带来的社会伦理、隐私保护、数据资产等方面的风险;

  • 算法治理,例如,算法选择与评估、数据挖掘与分析、数据安全监管等,其决定生成内容的合理性、可靠性与合规性。



AIGC数据治理框架


AIGC全流程会遇到的数据合规问题,包括数据获取、数据分析、数据标注、数据处理等程中可能存在数据主权、政务数据保密、个人隐私保护等数据安全风险。此外对于模型算法偏见、公平性与透明度的挑战,造成事实性虚假信息与幻觉性虚假信息的风险;全流程分类分级的数据合规治理可以有效防范数据安全风险。


目前有研究人员基于“数据平台+训练模型+应用场景”模式,构建了全流程、多模态、动态化的AIGC数据合规治理框架:

框架包括数据安全管理体系、运算体系、规范保障体系三个子系统,基于统筹建设、应用牵引、便利服务、保障安全,实现融合创新与规制双重目标的治理框架。

框架是静态的,然而流程动态化十分重要,①要精确掌握状态变化随时间变化的数据;②要连续不断地对其发展全过程产生的数据进行统计和分析;③在统计与分析的基础上理清变化的内在规律。

这个框架某种意义上是希望通过三个子系统,配合流程的动态管控来控制数据的合规治理从而解决AIGC的“科林格里奇困境”。


鲁班号导读火热上线!!
------>敬请移步“鲁班秘笈”!<------
------>敬请移步“鲁班秘笈!<------
------>敬请移步“鲁班秘笈!<------

鲁班模锤
基于开源技术生态,跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化,依托语料库构建数据可信流通方案,为所有企业提供平等的数据增益服务。
 最新文章