作者简介
辛勇飞,中国信息通信研究院政策与经济研究所所长,中国互联网协会互联网法治工作委员会秘书长,正高级工程师。研究方向为信息通信发展和管理、高技术产业政策以及数字化发展。主要论文有《中国数据治理规则体系构建:现状、挑战与展望》、《数字技术支撑国家治理现代化的思考》、《信息服务业支撑制造业发展策略研究》(合著)等。
摘要
当前,人工智能正在全球范围内蓬勃发展,成为新一轮科技革命和产业变革的重要驱动力量。人工智能技术的突破式发展在带来极大便利的同时,也导致新旧风险叠加,引发一系列问题,给现有经济社会治理模式和治理规则带来挑战。人工智能治理法治化是确保人工智能安全有序发展的重要保障,也是目前人工智能发展领先国家和地区的普遍做法。我国在人工智能法治建设方面已具备良好基础,考虑到相关技术产业在一些方面仍处于追赶阶段,应充分发挥法治固根本、稳预期、利长远的保障作用,区分短期和中长期计划,采取“渐进式”立法模式,有序推进相关立法工作,促进和保障我国人工智能高质量发展。
人工智能技术产业发展态势与治理需求
习近平总书记强调:“人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的‘头雁’效应。”当前,人工智能技术快速发展,大模型不断迭代突破,相关产业正在向多智能融合新阶段发展。人工智能推动传统实体经济实现革命性升级与发展,催生智能经济新形态,成为发展新质生产力的重要引擎。我国人工智能前沿领域技术创新活跃,人工智能产业规模不断提升,行业赋能逐步“走深向实”。
人工智能为经济社会发展注入新动能。以ChatGPT为代表的大模型问世,改变了人工智能技术与应用的发展轨迹,是人工智能发展史上的新里程碑。大模型呈现学习能力强、通用泛化好、技术迭代快等特点,其感知与理解能力显著增强,在上下文理解、多学科知识、数学推理等任务中接近人类水平,已具有一定的通用智能能力。近期,人工智能产业保持高速增长,大模型成为主要驱动力。从产业规模看,2023年,全球人工智能产业规模为5132亿美元,同比增长20.7%。从投融资热点看,2023年下半年,全球金额领域最大的十项投资事件中有七项与大模型相关,达到25.65亿美元,其中三项流向基础大模型企业,四项流向专用大模型、大模型平台等相关企业。从发展路线看,极限发挥“大模型+大数据+大算力”技术潜力成为未来3~5年发展主旋律。
我国高度重视人工智能发展,2024年《政府工作报告》明确提出,2024年将深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。目前,我国已成为人工智能领域超级大国之一,人工智能产业蓬勃发展,逐步迈入由技术突破、产业发展、应用创新三个维度牵引发展的新阶段。主要表现为通用大模型、智能芯片、开发框架等创新成果不断涌现,视觉、语言等应用技术水平全球领先,基础算法二次创新能力突出。2023年,我国人工智能核心产业规模达5784亿元,同比增长了13.9%,人工智能企业数量达4482家。我国人工智能产业链已覆盖集成电路制造、框架、芯片、算法、数据、平台、应用等上下游关键环节,人工智能芯片企业加速布局,基础模型快速迭代,大模型数量稳居世界第一梯队。
人工智能健康有序发展需要法治保障。构建合理适宜的法律制度是促进人工智能健康发展的重要基础,法律通过明确权利和义务为人工智能的创新和规范提供确定性、激励性和指导性。在创新层面,与数据、算法、算力、应用发展相关的合法利用问题和权利问题仍待解决。以数据为例,高质量数据是人工智能发展的根基,数据的汇集利用需要进一步明确合法处理个人信息数据、合法使用受著作权保护内容的数据、合理进行数据爬取等方面的法律要求。同时,探索确定人工智能生成物的权利归属也能对内容创新、技术创新形成激励。在规范层面,发展创新与安全相统一的人工智能需要法律明确责任义务。法治在人工智能全生命周期治理中发挥着示明底线的作用,是保障个人权利和社会发展秩序最重要的治理手段之一。同时,法律通过明确人工智能研发和应用的要求,合理配置人工智能开发者、部署者、使用者等不同主体的责任与义务,进一步推动形成人工智能健康有序发展的社会生态。
国际社会人工智能立法趋势与主要做法
随着人工智能技术发展和应用普及,人工智能治理能力和治理体系滞后于技术发展的问题日渐显现。多个国家和地区探索以法治思维与法治方式治理人工智能,在发展与监管之间寻求平衡,促进人工智能“在发展中监管,在监管中发展”。通过出台人工智能相关立法健全人工智能治理体系,有效监管人工智能的开发和应用,防止技术滥用或不当使用,以法治思维和方式推动人工智能技术健康发展,成为多个国家和地区在人工智能治理中的首要选择。从全球范围看,人工智能发展领先的国家和地区高度重视法律制度构建,积极开展人工智能相关立法和治理活动,主要形成了以欧盟和美国为代表的两种典型治理模式。
以欧盟为代表的风险规制模式。欧盟立法侧重于对人工智能发展风险的控制,试图延续其《通用数据保护条例》(GDPR)在数据保护领域所产生的“布鲁塞尔效应”,起草了全球迄今为止最为全面系统的综合性《人工智能法》,并由欧洲理事会正式批准通过。欧盟在《人工智能法》中采取了一种基于风险控制的监管方式,对人工智能技术在所有行业具体应用场景的风险进行分级,参考功能、用途和影响将人工智能系统分为绝对不可接受的风险、高风险、有限风险和低风险(无风险)四个风险级别,根据风险级别明确不同的管理要求和法律义务。
第一级是“绝对不可接受风险”人工智能。《人工智能法》禁止“侵入性”和“歧视性”等具有危害性的人工智能系统的使用。包括利用有害的、操纵性的潜意识技术的人工智能;利用特定弱势群体(身体或精神残疾)的人工智能;为一般目的提供自然人社会评分,可能导致歧视性结果或对某类群体进行排除、限制使用的人工智能;在公众可进入的空间使用实时、远程生物识别的人工智能。第二级是“高风险”人工智能。具体包括两种类型,一类是用于产品的安全组件或属于欧盟健康和安全统一立法管辖范围的人工智能;另一类是应用于生物识别、关键基础设施的管理和运营、教育和职业培训,执法工作等8个领域的人工智能。《人工智能法》对“高风险”人工智能系统的不同主体提出了不同的法律义务。针对相关主体的一般义务包括:进行风险管理、建立数据管理制度、制定技术文件、留存相关记录以及保障系统安全性和准确性。“高风险”人工智能提供者要承担保障系统安全、标明相关信息、留存资料等义务;“高风险”人工智能进口者要承担合格评估、信息披露等义务;“高风险”人工智能部署者要承担适当使用、人为监督、基本权利影响评估等义务。此外,《人工智能法》还要求基础模型提供者要承担确保人工智能满足使用要求、数据处理要求以及备案等义务。第三级是需要满足透明度义务的“有限风险”人工智能。例如聊天机器人、生物识别分类系统等风险有限的人工智能系统。《人工智能法》规定此类人工智能系统只需要遵守透明度义务。第四级是不需要承担任何义务的低风险人工智能。即如果人工智能系统的风险极低,则可以直接在欧盟进行开发和使用,而不需要承担任何法律义务。
欧盟在人工智能的监管上采取了一种横向的、全面的管理方式。在适用范围上,欧盟《人工智能法》采取了与GDPR一样的横向立法模式,即适用于所有投放于欧盟市场或者在欧盟可使用的人工智能系统,覆盖金融、医疗、教育、能源、运输、司法等各个行业领域。在管理机制上,欧盟《人工智能法》采取了自上而下的双重监管机制,即在欧盟层级设立人工智能办公室,监督最先进人工智能模型标准与测试;在成员国层级,由各成员国的主管机构负责在本国内适用和实施《人工智能法》。在管理对象上,《人工智能法》覆盖了人工智能产业全生态,对“高风险”人工智能系统的提供者、进口者、部署者以及基础模型提供者均提出了具体的规定。此外,在法律责任上,《人工智能法》设置了高额罚款,罚款最高可达3500万欧元或全球年营业额的7%(以较高者为准),对企业具有极强威慑力。
以美国为代表的发展引领模式。与欧盟的“强监管”不同,美国并未试图制定统一的综合性人工智能立法,而是以“软治理”方式为主应对人工智能发展需求和风险挑战,为技术和行业友好型的非监管措施和“软法”治理留出更大空间。美国联邦政府强调审慎监管促进创新发展,更多通过行业自律、政策文件等“软”性方法实现人工智能治理。美国政府多次声明人工智能技术发展是“以透明、基于共识以及私营部门为主导的方法制定新兴技术标准,帮助美国公司在公平的环境中竞争”。美国州层面通过区分行业领域的垂直立法,基于不同的技术应用场景出台相关立法,立法集中在自动驾驶、算法推荐等产业发展和治理实践较成熟的领域,如美国已有32个州允许测试或部署自动驾驶汽车,纽约市于2018年通过美国第一部算法问责法案《1696法案》等。
美国联邦层面通过战略规划、政策文件等为人工智能发展扫清技术应用障碍、促进技术创新。一方面,美国政府以《人工智能权利法案蓝图》统领人工智能治理。2022年10月,美国白宫科技政策办公室发布《人工智能权利法案蓝图》,该文件提出人工智能技术应用的五项原则及相关实践,即建立安全有效的人工智能系统、建立算法歧视保护措施、保护数据隐私、强调通知和透明度的重要性以及鼓励开发选择退出机制。这一文件旨在帮助指导自动化系统的设计、使用和部署,以保护人工智能时代美国公众的权利。另一方面,美国政府发布人工智能发展路线图和战略规划,引领国家人工智能发展方向。2023年1月,由美国白宫科技政策办公室和美国国家科学基金会联合成立的国家人工智能研究资源特别工作组发布《国家人工智能研究资源的实施计划》报告,旨在扩大获得人工智能研究和发展必需资源的渠道,为人工智能研究人员提供更多的计算资源、高质量数据、教育工具等,推动人工智能创新。2023年5月,美国白宫科技政策办公室发布《国家人工智能研发战略计划》,总体规划了联邦政府投资人工智能研发的关键优先事项和目标。
美国通过发布权威标准、指引以及鼓励企业加入自律承诺等方式“柔性”应对人工智能风险。一方面,美国政府科研机构发布人工智能风险管理框架。2023年1月,美国国家标准与技术研究院(NIST)发布《人工智能风险管理框架》,旨在更好管理与人工智能相关的个人与组织,降低开发和部署人工智能系统时的安全风险,避免产生偏见等负面影响,提高人工智能可信度。另一方面,美国政府以自愿性承诺的方式引导人工智能头部企业开发安全、可信的人工智能。2023年7月,美国白宫召集亚马逊、Anthropic、谷歌、Inflection、Meta、微软和OpenAI七家人工智能企业作出一系列保护用户的自愿承诺,包括同意进行安全测试、采用新的水印系统以告知用户内容是人工智能生成等。2023年9月,包括Adobe、IBM、英伟达等在内的八家人工智能头部企业也加入该自愿承诺,共同推动人工智能技术的安全、可靠和透明发展。
美国政府发布行政令以促进人工智能安全发展为主线,旨在提升美国在人工智能领域全球领导力。2023年10月,拜登签署《关于安全、可靠和可信地开发和使用人工智能的行政令》,对美国未来人工智能发展和监管作出全面部署,强调要促进创新和竞争,确保美国在人工智能领域的竞争优势和领先地位。该行政命令指示相关部门执行八项行动,包括为人工智能安全和保障制定新标准,保护美国人的隐私,促进公平和公民权利,维护消费者和工人利益,促进创新和竞争,提升美国在全球的领导地位等。
我国人工智能法治建设的现状与挑战
我国人工智能法治已具备良好基础。近年来,我国坚持统筹安全与发展,积极推进人工智能相关立法和治理工作,先后制定出台了一系列法律法规,在人工智能法治建设方面处于全球领先地位。
一是我国互联网领域的综合立法为人工智能等新技术新业态的共性问题提供了基础法律框架。我国先后出台了《中华人民共和国网络安全法》、《中华人民共和国数据安全法》(以下简称《数据安全法》)、《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)等,相关立法确立了网络安全、数据安全、个人信息处理等方面的具体规则,为应对人工智能研发应用中网络安全、数据安全、个人信息保护等相关问题提供了明确指引。
二是我国围绕算法、深度合成、生成式人工智能等重点领域制定专门规则。相关部门先后出台《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等相关规定。2023年7月,国家互联网信息办公室联合工业和信息化部等多部门发布的《生成式人工智能服务管理暂行办法》,被认为是全球首部针对生成式人工智能的专门立法,其中提出国家坚持发展和安全并重、促进创新和依法治理相结合的原则,采取有效措施鼓励生成式人工智能创新发展,对生成式人工智能服务实行包容审慎和分类分级监管,明确了提供和使用生成式人工智能服务总体要求。
三是我国有关地方政府结合本地人工智能产业发展实践,通过地方立法探索创新人工智能治理,为人工智能规范发展提供制度保障。例如,2022年9月,深圳发布《深圳经济特区人工智能产业促进条例》,明确了人工智能的概念界定和产业边界,提出了创新产品准入等制度。同月,上海发布《上海市促进人工智能产业发展条例》,提出探索人工智能沙盒监管模式,对高风险人工智能产品和服务实行清单式管理等激发各类主体创新活力的治理机制。
人工智能发展仍面临若干挑战。从实践发展情况来看,目前我国人工智能处于快速发展期,在大模型开发应用中存在数据处理合法性不足、知识产权界定不清、数据质量缺乏保障等问题,对技术进步和产业发展产生了一定的制约影响。
一是大模型训练中使用爬取数据存在违法风险。目前,大模型训练中包含了来源多样的训练数据,主要包括公开数据集、企业内部数据、合作伙伴数据、购买第三方数据以及用户生成内容。根据OpenAI官网的披露,ChatGPT的训练数据既包括自身训练数据库中的数据,也包括与用户交互过程中用户的输入数据,规模最大的训练数据是第三方爬取的数据集。依据我国《数据安全法》相关规定,应当采取合法、正当的方式收集数据,不得窃取或者以其他非法方式获取数据。生成式人工智能系统如果爬取我国未公开数据、出于非法目的爬取我国数据或者采取其他恶意手段爬取数据,该类行为将明显超出正当性边界,构成对语料库数据的非法获取。此外,我国相关司法审判案例判决未经允许抓取非公开数据可能构成不正当竞争,也在一定程度上限制了大模型开发者以爬取数据对大模型进行训练。
二是以个人信息作为训练数据存在侵犯个人信息风险。人工智能大模型在训练过程中使用来源多样的海量数据,其中不可避免地存在个人数据。《个人信息保护法》《生成式人工智能服务管理暂行办法》均规定,对个人信息的处理活动需取得个人同意或符合法律、行政法规规定的其他情形。但模型语料库数据规模庞大,逐一获得个人信息主体的同意极为繁琐,缺乏可操作性。在大模型训练中使用已公开的个人信息,是否属于《个人信息保护法》第二十七条规定的“在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”,仍存在不确定性。目前,由于对于个人信息的处理缺乏合法性依据,OpenAI已经受到多国数据保护监管机构的审查,如西班牙、加拿大的数据监管机构和欧洲数据保护委员会(EDPB)等均对OpenAI的数据保护展开调查。2023年3月,意大利的数据监管部门以违法使用个人数据为由对ChatGPT发布禁令。在个人信息保护法律框架下合法扩大训练数据库,成为人工智能企业面临的共同课题。
三是大模型训练可能造成对他人知识产权侵权。近期,由于大模型训练中使用了他人享有知识产权的数据作为训练数据“喂养”大模型,在国内外引发多起诉讼案件。2023年9月,美国作家协会和十七名作家起诉OpenAI使用权利人享有版权的作品训练大模型构成著作权侵权。2023年10月,环球音乐集团及其他两家音乐公司对人工智能公司Anthropic提起侵权诉讼,认为Anthropic在歌曲的歌词上侵犯了原告权利。2024年2月,我国广州互联网法院作出全球首例生成式人工智能侵犯著作权的生效判决。目前,产业界、学术界就人工智能背景下解释适用《著作权法》《专利法》等知识产权相关立法,以及对现有立法进行修订等主题展开激烈讨论。
四是数据质量对大模型性能产生重要影响。目前,大模型训练中仍存在数据质量不高的问题。大模型训练数据中大部分为开源数据,而开源训练数据或多或少存在噪音问题,特别是爬虫数据噪音问题更为严重,而数据质量对于生成内容的准确性、全面性等都产生重要影响。此外,大模型采用“人类反馈强化学习”训练方法,开发主体从大模型中选取样本,对其进行人工标注,并利用评分结果来训练反馈模型。而反馈提供者的个人观点可能会被模型所学习和加强,导致最终的文本生成结果缺乏客观性和全面性。数据的时效性、多样性不足,也成为制约大模型训练的重要因素。目前中文优质数据集的存量现状、发展水平和内容质量相对落后,在一定程度上制约了大模型的训练效果。《生成式人工智能服务管理暂行办法》中规定,在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升其遵法守法意识,监督指导标注人员规范开展标注工作。但提升数据质量的具体要求和标准、数据标注的具体规制和数据标注人员管理规则都仍需进一步细化完善。
推进我国人工智能立法的思路原则与建议
关于我国人工智能立法的思路原则。目前,我国人工智能大模型发展仍处于技术追赶阶段。结合我国产业技术发展实践,推进我国人工智能立法工作需要统筹处理好发展与安全、新法与旧法、国内与国际三对重要关系。
一是统筹发展与安全,明确立法定位。通用人工智能是新质生产力的典型代表,在通用人工智能技术尚未展现全貌前,如何合理地平衡发展和安全,将极大影响我国未来在全球智能化竞争格局中的地位。建议在划好安全底线的前提下,更加突出立法对人工智能创新发展的“促进”作用,实现以发展促安全,以安全保发展。我国人工智能立法可构建“先行先试”的准入机制和宽松的创新环境,让新技术更快地走向市场,给予萌芽阶段的新技术新产品新应用以包容期,以实现立法监管与技术创新的良性互动。
二是处理好新法与已有立法的关系。人工智能发展的很多问题都是传统互联网问题的延伸,如数据治理、个人信息保护等,对此,已有相关法律法规可以直接适用,或者针对人工智能发展特点通过立、改、废、释等立法手段调整后适用。要处理好不同法律之间的协调,做好新制度设计与已有规定的衔接。
三是统筹好国内与国际的关系。人工智能是人类发展的新领域,带来了重大机遇,也伴随着难以预知的风险挑战,需要国际社会共同应对。在推进高水平对外开放的背景下,我国人工智能的法律制度应当成为一个立足国内、面向国际的新型规范模式,不仅要符合我国基本国情,也可以参考借鉴美欧人工智能风险分级管理、促进创新等有益经验。
关于我国人工智能立法模式选择的建议。在具体推进我国人工智能立法工作中,建议分阶段“渐进式”推进。从整体看,目前人工智能发展仍处于通用人工智能发展的早期阶段,很多问题尚未暴露,应在开展具体立法工作中区分短期和中长期的计划,采取“渐进式”的立法模式,有序推进相关立法工作。
在短期内,建议做好《个人信息保护法》等已有法律的适用工作,适时由全国人民代表大会常务委员会发布人工智能相关决定。目前人工智能发展中出现的数据安全、个人信息保护等问题,基本都可以在现有法律框架内解决,对现有立法进行延伸适用是较为经济高效的手段。此外,为更好发挥法律固根本、稳预期、利长远的保障作用,可以参照我国曾经在个人信息保护领域的经验做法,由全国人民代表大会常务委员会起草发布关于促进和规范人工智能发展的决定。个人信息保护曾是全球互联网发展中的关键问题,欧盟于1995年发布《数据保护指令》后引发了全球个人信息保护立法热潮。我国当时并没有急于制定一部个人信息保护综合性立法,而是由全国人民代表大会常务委员会在2012年发布了《关于加强网络信息保护的决定》,明确了个人信息保护的主要原则和基本规则,为产业发展留足了空间,推动我国互联网行业发展迎来黄金时代。
中长期来看,建议研究制定综合性基础性人工智能立法,推动构建人工智能法律制度体系。人工智能法治化是一项系统性、复杂性工作,既涵盖设计、研发、应用等多个发展阶段,又包括研发者、提供者、使用者等多元主体,涉及数据、算法、模型等多方面问题,需要一部综合性立法来统筹协调。以产业发展、权利保护、伦理考量为基本原则,用系统观念和法治方法来推动人工智能技术产业在我国规范健康持续发展,促进其在“安全、可控、可解释、可问责”的基本原则下创新发展。以算法、算力、数据为核心要素,在法治框架下尽快建立健全人工智能科技伦理监督管理规范,完善相应的侵权责任规范体系。探索构建以不同领域开发使用人工智能的风险为划分标准的规则体系,加强和改进人工智能领域数据安全保障制度,重视和强化算法管理,强化对高风险领域的管理,释放低风险领域发展活力。探索构建多元主体创新治理路径,研究探索“沙盒监管”等创新监管制度,秉持“在发展中规范”“在规范中发展”的基本制度取向,在新技术新应用治理中构建多领域、多主体、多制度、多工具协同联动治理机制。
关于我国人工智能发展具体问题的建议。针对现阶段人工智能技术产业发展中的突出问题,可通过出台权威指引、实施细则或修订相关立法的方式予以回应,为人工智能发展提供明确的规则指引和合法保障。
在解决爬取数据合法性不足方面,可通过修订现行立法,放宽对第三方数据服务商数据抓取的限制。对于商业数据的爬取,可考虑采纳2022年《中华人民共和国反不正当竞争法(修订草案征求意见稿)》第十八条第一款第二项关于数据爬取的规定,仅对足以实质性替代其他经营者提供的相关产品或者服务的数据爬取行为进行规制。对公众可以无偿获取的数据,可考虑采纳2022年《中华人民共和国反不正当竞争法(修订草案征求意见稿)》第十八条第三款关于获取使用该类型数据不属于不正当获取的定性,为大模型开发者合法的数据爬取和使用留出制度空间。
在实现大模型训练中个人信息合法使用方面,可考虑在《个人信息保护法》框架下,针对人工智能大模型训练阶段、生成阶段、应用阶段个人信息保护的具体问题出台细则和指引,帮助相关企业合法地研发、部署、应用人工智能大模型。考虑出台《个人信息保护法实施条例》,将人工智能大模型在研发阶段对已公开个人信息的使用纳入《个人信息保护法》规定的“在合理的范围内处理个人已经合法公开的个人信息”。
在协调促进人工智能创新和著作权保护方面,通过具体规则、指引解决人工智能发展中的突出问题,为构建完善的人工智能制度体系奠定规则基础。可考虑在《著作权法》第四节“权利的限制”部分增加“文本与数据挖掘”条款,即“为研发大模型而采集作品数据进行训练的,在著作权人未明确拒绝将其作品用于训练时,可以不经著作权人许可,使用其作品进行模型训练,但不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”。允许企业出于发展人工智能的公共利益需要,在不侵害著作权人合法权益的基础上,使用作品进行模型训练。
在提升训练数据质量方面,可通过发布实践指引、行业标准的形式,明确对具体行业、具体类型数据质量的具体要求。围绕数据标准化、数据合规化、数据完整性、数据一致性等要求,构建数据集质量评测基准体系,开发数据标注管理工具,为提升数据质量提供明确指引。可探索构建数据标注行业管理制度,完善数据标注规则,包括标注目标、标注格式、标注方法以及数据质量指标等。构建数据标注从业者的资格准入制度,针对数据标注、数据审核等不同职能明确不同的任职要求等。
文章来源:《学术前沿》杂志2024年第13期(注释从略)
原文责编:桂 琰
原文美编:梁丽琛
新媒体责编:梁丽琛
声明:《学术前沿》杂志原创文章,任何单位或个人转载请回复本公众号获得授权,转载时请务必标明来源及作者。