重磅!中文互联网语料资源平台发布

文摘   2025-02-02 19:47   日本  

中文互联网语料资源平台发布

近日,在中国网络空间安全协会人工智能安全治理专委会工作年会上,中文互联网语料资源平台正式面向社会发布
在中央网信办指导下,中国网络空间安全协会会同国家互联网应急中心,协同人工智能产、学、研、用单位,共同建设中文互联网语料资源平台,面向社会提供中文互联网基础语料展示下载服务。平台支持行业领域、内容模态、体量规模等多种标签分类,便于用户下载与使用。

图 | 资源平台截图 

中文互联网语料资源平台详情

目前平台共入驻27个语料数据集,数据总量约2.7T,主要分三类:
一是中国网络空间安全协会会同国家互联网应急中心等建设的中文互联网基础语料;

图 | 中文互联网基础语料
二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;

 | 人民网主流价值数据集
三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。

 | 国家版本馆明清文献语料

资源平台使用方法

登录中文互联网资源平台官网(https://corpus.cybersac.cn/?#/home),即可在首页注册使用平台。

 | 注册、登录界面




热点聚焦 | 蛇年说“蛇”

2025-01-29

语言学重镇,首次招收博士生!

2025-01-23

重磅!北京语言大学博士毕业要求调整!

2025-01-22

新刊速递 |《外国语》2025年第1期目录

2025-01-25


现代语言学
专注于语言学学术信息分享
 最新文章