1月9日,在北京召开的中国网络空间安全协会人工智能安全治理专业委员会工作年会上,中文互联网基础语料2.0正式向社会发布。
在中央网信办指导下,中国网络空间安全协会会同国家互联网应急中心,在前期发布中文互联网基础语料1.0的基础上,持续发挥企业、高校和科研单位协同优势,依托专委会建立的语料共建共享机制,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料2.0,规模120GB,数据3800万条。用户登录中国网络空间安全协会网站(https://www.cybersac.cn/newhome),点击“中文互联网语料资源平台”链接,通过注册、认证等程序,即可下载相关语料。
网安协会人工智能安全治理专委会负责人表示,数据是发展人工智能的基础关键资源,中文互联网基础语料2.0是各界协同共建高质量中文语料的又一重要成果。专委会将持续加强中文互联网基础语料建设,为人工智能技术创新和产业发展提供有力支撑和保障。
来自专委会成员单位、大模型备案机构和相关领域科研、企业、社会组织代表150多人参加发布仪式。
转载请注明来源:“网信中国”微信公众号
审核:陈舞阳
编辑:王林晨
校对:吕燕芳