第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘助力科研效率提升和大模型训练

财富 2024-11-07 17:05 北京

8月29日，国家数据局会同科技部、农业农村部、文化和旅游部、中国科学院、中国工程院、国家文物局、国家中医药局等部门在中国国际大数据产业博览会上发布第二批28个“数据要素×”典型案例。第二批案例在注重发挥以数据解行业发展难题、促行业效益提升作用的同时，更加突出数据来源合规、治理有效以及依靠先进适用技术保障数据安全流通等内容，彰显数据要素推动经济发展的乘数效应。

科技文献为科学研究提供了丰富的研究资源与参考资料，是学术交流的重要媒介。科技创新需要大量科技文献数据支持，但传统文献文档内容结构松散，信息分布呈现碎片化特点，导致数据筛选整合低效，严重影响科研效率。中国科学院文献情报中心联合相关单位借助人工智能技术，深度挖掘科技文献中的数据价值，构建覆盖多领域的高质量数据集，支持科技领域大模型建设，助推科研范式变革。　　

一是合规归集高质量科技文献数据。在遵循知识产权法规和国际通行规范的基础上，充分发挥中国科学院文献情报中心和国家科技图书文献中心（NSTL）的学科优势，与领域内的科学家紧密协作，汇聚大量权威可靠的科技文献数据及专业领域知识。通过对科技文献全文数据中的文本、图表、公式等进行多模态解构，构建了一个覆盖多个学科的综合知识资源库，不仅包含了传统的文本信息，还涵盖了图表和公式等非文本元素，形成一个全方位的多模态知识体系。目前公益学术平台（PubScholar）已归集1.8亿条文献元数据，逾8065万篇完整的文献全文，为科研人员提供了丰富的研究素材和知识支持。　　

二是突破关键技术研发科技文献人工智能引擎（SciAIEngine）。提出了掩藏句子模型（Masked Sentence Model）与两阶段方案实现文本中的知识抽取，基于层次分类器集群实现千级类目中图法分类，通过嵌入词典和词性特征实现关键词识别，基于小样本数据利用半监督迭代学习等技术实现命名实体识别。利用这些创新技术，提升文本挖掘能力，研发科技文献人工智能引擎（SciAIEngine）。形成一系列可供扩展应用的软件、数据、解决方案和工具集，并提出了一套从科技文献中挖掘领域知识与科学数据的流程方法。　　

三是深度挖掘科技文献内容。利用科学人工智能引擎对优选文献进行深度挖掘，提取包括关键科学数据、实验结果等硬信息，提取理论框架、研究方法等软知识。通过深度挖掘科技文献的专业领域本体知识、科学数据、观点倾向等科技文献内容，建立细粒度科技文献内容与句子、段落、图表、全文之间的循证关系，支持文献内容溯源。将细粒度知识与科学数据进一步融合、精选、对齐、补齐，构建高质量语料库、专业化领域知识本体库、适用人工智能的科学数据集和研究观点倾向库。当前已支持上海药物所从文献中挖掘药物靶标数据，支撑新药研发；与西南交大合作挖掘二维材料属性数据，赋能材料研发；与东北地理所合作挖掘木质纤维素生物降解知识，助力黑土地生物质高效利用。　　

四是建设科技文献大模型。基于专业化领域知识本体库、适用人工智能的科学数据集、研究观点倾向库构建支撑智能科研（AI4S）的科技文献知识底座，支持AI4S模型的训练，为AI4S智能模型假设的提出、预测的验证和推理的监督提供知识基础。与头部人工智能企业合作，集成知识图谱、语义搜索等功能，打造支持智能化科研的解决方案。同时开发医学、化学领域的垂直大模型，为科技创新提供知识数据支持。其中，科技文献大模型提高论文调研效率10倍以上，论文研读有效率超90%。

图1 AI4S知识底座

图2 PubScholar公益学术平台

来源：国家数据局

编辑：郭嘉梁

责编：李兵兵

喜欢本文，请点这里

http://mp.weixin.qq.com/s?__biz=MzU5NTc2NzY1Mg==&mid=2247576776&idx=3&sn=353e1e5d34ba00d4a66701eb2a41fc30

人民数据

党管数据，服务人民

最新文章

北京市中医药管理局2024中医药文化建设高级研修班举行

第二批“数据要素×”典型案例之十五 | 数据赋能稀贵金属产业发展

数字化转型，让城市更美好

发挥数据渠道作用，人民数据招募生态合作伙伴

创新资源开发业态，推进媒体融合向纵深发展

《普惠金融前沿课》全面勾勒普惠金融业务逻辑和发展态势

郑光魁: 媒体融合加强合作是必然但绝非一哄而上

数据基础设施建设为数据“流得动”“用得好”提供有力保障

数据元素周期表：让数据精准表达、组合反应

关乎数据资产入表，财政部最新解读

新闻摄影画册《历史的见证》编辑出版座谈会暨“长江自有后来人”记者节主题活动在京举办

长江韬奋奖（长江系列）获奖者记录历史瞬间的人生感言

时代的见证：长江韬奋奖（长江系列）获奖者记录下的历史瞬间

人民数据：数据引领变革推动老字号焕新升级

数字技术创新应用催生数字贸易新业态新模式

第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘助力科研效率提升和大模型训练

人民数据开展第二期首席数据运营官箐英训练营

提升数据资源开发利用水平，持续壮大数据企业竞争力

国家数据局发布首批18个公共数据应用示范场景（附名单）

人民数据“人民链数据要素全生命周期溯源查证方法及系统”获得国家发明专利

数智观察：跟随桂花香飘来的消费机遇

文县“数字化乡村振兴试点项目”签约仪式举行

全国首张食用菌行业“数据资源持有权证书”落地浙江省龙游县

人民数据向中海华晟数字科技有限公司发放“数据资源持有权证书”

人民数据向甫山智能信息科技（北京）有限公司发放“数据加工使用权证书”

浙江海洋大数据增值应用中心成立

人民数据将举办数据资源开发利用研修班

人民数据向青岛格兰德信用管理咨询有限公司发放“数据产品经营权证书”

人民数据数据生态合作伙伴招募

培育创新型间接数据交易流通模式，鼓励平台型企业向数据商转型

人民数据联合大庆高新区管委会上线东北区数据要素服务平台

关于向立昂技术股份有限公司发放数据确权“三证”的公告

人民数据向北京酷车易美网络科技有限公司发放“数据资源持有权证书”和“数据产品经营权证书”

人民数据联合湖北数据集团上线湖北省数据要素服务平台

理论创新助力数据要素资产化探索：从“数据元素周期表”到“数据反应”的最新研究成果

人民数据向衣锦浣香电子商务有限公司发放“数据资源持有权证书”和“数据加工使用权证书”

湖北省数据要素服务平台、大庆市(东北区)数据要素服务平台上线运营

2024年“数据要素×”大赛全国总决赛颁奖仪式在京举行

人民数据向浙江香满亭生物科技有限公司发放“数据资源持有权证书”

全国数据标准化技术委员会成立大会暨第一次全体委员会议在京召开

河北日报等机构获颁"数据确权三证"

关于向衣锦浣香电子商务有限公司发放“数据资源持有权证书”和“数据加工使用权证书”的公告

人民数据向千一禾盛（北京）科技有限公司发放“数据资源持有权证书”

人民云课上新啦！《职业生涯规划与管理》正式上线！

刘烈宏：奋力谱写数字经济高质量发展新篇章

人民数据向河北招标集团网络科技有限公司发放“数据加工使用权证书”和“数据产品经营权证书”

让技术型企业拥有数据资源企业属性，让更多第三方机构成为数据服务企业

人民数据开展第三期首席数据官创新启航营培训

人民数据向四川商投旗下数字公司发放“数据加工使用权证书”

关于向浙江香满亭生物科技有限公司发放“数据资源持有权证书”的公告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘 助力科研效率提升和大模型训练

第二批“数据要素×”典型案例之十三 | 科技文献数据挖掘助力科研效率提升和大模型训练