导 读
本研究基于π 指数算法和逻辑回归( 梯度下降法) 算法,选取π 指数知识库收录的122 种期刊8年(2015-2022) 近40 万篇研究型论文为研究对象,旨在探讨全球不同国家和机构在生命科学与基础医学领域的发展态势,解析中国生命科学与基础医学的发展。通过分析发现,美国在该领域的年度发文量及π 因子始终处于全球领先地位,中国的发展势头尤其突出,自2018 年起,其年度发文量及π 因子呈现快速上升趋势,增速居全球之首;从全球TOP500 机构8 年π 指数(π8) 分型结果来看,中国持续快速成长型机构数占比全球领先,其中中国科学院领跑持续快速成长型机构,其下属机构也在波动中快速增长;TOP100 机构中,中国机构主要分布在长三角、京津冀、粤港澳三个城市群中,其年度发文量、每年π 因子均呈现快速增长趋势;其中,长三角城市群持续快速成长型机构最多,8 年发文总量连续第一,京津冀每年π 因子连续8 年位居国内领先。北京大学、清华大学、复旦大学、上海交通大学、中山大学、浙江大学、中国医学科学院北京协和医学院等机构呈现持续快速成长的发展趋势。在过去8 年里,中国生命科学和基础医学取得了飞速发展,得益于“人才回流”和“资金投入”的双轮驱动,其科技创新发展进入快车道。
张永娟1,王梦圆2,毛开云1,阮梅花1,施慧琳1,于建荣1,3*
(1 中国科学院上海生命科学信息中心,中国科学院上海营养与健康研究所,上海 200031;2 华东理工大学科技信息研究所,上海 200237;3 中国科学院大学, 北京 100049)
基础研究是科技创新的源泉与动力,科技期刊发挥着基础研究新理论、新发现的重要交流平台作用,也是评价基础研究成果的重要工具[1]。科技期刊的水平可以从影响因子(IF)、同行评议等多角度予以衡量,π指数【i】在期刊遴选方面,则瞄准全球高质量期刊,一方面参考了IF 以及F1000 数据库的论文评价等定量指标,另一方面依托生命科学与基础医学领域研究人员、Cell Research 及Molecular Plant 等期刊编辑、生命健康科技智库研究人员等同行评议的定性指标,遴选出122 种期刊( 每三年遴选一次)[2],基于此建立模型算法,旨在客观反映生命科学与基础医学领域科研机构的科研产出数量、质量和贡献,为科技评估和创新决策提供参考。π 指数( 系列指标 ) 作为衡量全球生命科学与基础医学领域科研机构的重要指标,包含π 值、π 商、论文量等核心指标,以及π 因子、π 值基线、π 商基线等基于π 值的一系列扩展指标( 表1)。
自2016 年开始,π 指数年度分析报告已连续发布8 年(2016—2023)【ii】,涉及全球30 多个国家的3 000 多家机构,每个机构8 年π 指数变化规律各具特点,为了更科学地、自动化地分析出每个机构π 指数变化的规律,本研究尝试通过机器学习算法建模对全球机构8 年π 指数曲线进行分型分析,从而更好地捕捉和利用数据中的信息和特征,更精确地揭示各机构π 指数的动态变化,为解析中国生命科学与基础医学的发展提供有力支撑。
1 研究与建模方法
1.1 评价的主体和数据范围
π 指数遴选出的122 种期刊实现了对生命科学与基础医学领域的主要覆盖,包括生物化学与分子生物学、营养与健康、神经科学、微生物学、进化与生态学、遗传与发育、植物和动物学、病理生理、心血管、免疫学、肿瘤学、公共卫生,也包括儿科学、妇产科学、牙科学、眼科学、外科学、皮肤学科、骨科学、放射学、呼吸系统、风湿病、泌尿科学和肾脏病学、胃肠病学和肝病学、医学实验室技术、重症监护医学、麻醉学、心理学以及多学科领域的综合类期刊,共计收录8 年(2015—2022) 近40 万篇研究论文。从122 种期刊8 年论文总量年度分布来看,年度论文量总体较为稳定,2020、2021 年有所增加,2022 年又有所回落( 图1),通过与往年论文研究内容对比研究,发现2020 和2021 年增长的研究论文主要涉及新冠病毒相关研究。
1.2 π8分型算法选择与模型构建
1.2.1 模型选择与构建
本研究通过对多种模型比较分析,选择使用逻辑回归算法( 梯度下降法) 进行机构分型分析,该算法是根据给定的特征来预测样本的分类概率[4],可以通过引入非线性项和交互项来捕捉π 指数各个年份的指标间的关系,从而更准确地根据变化趋势进行分类。首先以2022 年的π 指数前500 机构的数据集X1 为初始数据源,对X1 进行处理,形成数据集X2,数据集X2 由2022 年π 指数前500 机构的8 年π 指数的变异系数、增长率、均值、方差组成。而后,以数据集X2 为参考依据,由多位相关专家对500 个机构进行人工分型的判断。专家人工分型完成后,使用一致性检验整合专家人工分型结果,并由研究者对分型结果进行整体过滤和多轮修正,将前500 机构的人工分型结果加入数据集X2 中作为一个定类变量,由此形成数据集X3。对数据集X3 进行数据清洗和标准化处理,并处理类别不平衡的分布,而后将X3 作为后续的逻辑回归算法的训练集和测试集。将X3 按照一定比例划分为训练集和测试集,使用不同参数的逻辑回归算法对训练集进行分型学习,并用测试集进行测试,经过不断迭代,当模型的分型预测结果的准确率、召回率、精确率和F1 值都到达一个满意水平时,该模型就可以作为最终的分型模型,可以使用分型模型对3 000 多家上榜机构类型进行自动判断与分型( 图2)。
1.2.2 模型训练与分型
(1) 数据处理与模型训练
本研究对原始数据进行数据预处理,包括数据清洗、处理异常值、处理缺失值等。模型选取总数据量为500 条,训练用时为1.551 s,数据切分的比例为0.7,即训练集与测试集之比为7:3,使用遗传算法进行寻优,进行数据洗牌,进行了三折交叉验证,误差收敛条件为0.001,最大迭代次数为1 000。本研究的逻辑回归算法使用遗传算法寻找最佳的模型参数组合,以最小化误差或最大化性能指标。遗传算法是一种模拟生物进化过程的优化算法,通过模拟自然选择、交叉和变异等操作来搜索最优解。
(2) 模型调参与模型评估
本研究使用三折交叉验证,原始数据被随机分成三个互斥的子集,其中两个子集用于训练模型,另一个子集用于验证模型。这个过程会重复三次,每次使用不同的子集作为验证集,最后将三次验证结果的平均值作为模型的性能评估指标,三折交叉验证可以有效地评估模型的泛化能力,并减少由于数据集划分不当而引起的偏差。最终对交叉验证集、训练集和测试集的预测结果进行评价,通过准确度、召回率、精确率和F1 来衡量逻辑回归的预测效果,得到结果为表2。
该模型在训练集和测试集上表现良好,准确率、召回率、精确率和F1 分数都较高,说明模型能够对数据进行准确的分类和预测,该模型具有较好的泛化能力,能够在未知数据上保持较好的性能。
(3) 分型类别与代表性机构
本研究根据模型分型结果将所有机构分为6类。前三类别属于增长型,后三类属于下降型,其中类别1 是持续快速增长型,以中国科学院为代表;类别2 是波动快速增长型,以斯坦福大学为代表;类别3 是稳定( 略增长) 型,以法国国家科学研究中心为代表;类别4 是稳定( 略下降) 型,以洛克菲勒大学为代表;类别5 是波动快速下降型,以法国国家农业研究院为代表;类别6 是持续快速下降型,以霍华德休斯医学院研究所为代表( 图3)。
2 全球国家与机构趋势分析
2.1 全球论文总量TOP10国家总体情况分析
2.1.1 中国π8论文总量位居全球第三
从全球π8 (2016—2023) 论文总量TOP10 国家来看( 表3),美国论文总量共189 187 篇,位居全球第一,占全球论文总量的58.58%,中国共发表论文47 688 篇,位居全球第三,占全球发表论文总量的14.77% ;美国在CNS (Cell、Nature、Science)上发表论文量8 326 篇,位居全球第一,中国在CNS上发表论文1 637 篇,位居全球第四。
2.1.2 中国论文量和π因子增速最快
从全球π8 (2016—2023) 论文总量TOP10 国家论文量分布来看( 图4),美国在波动中略有下降,下降幅度为1.16% ;中国论文量在波动中保持快速增长,从2020 年开始超过英国,排名全球第二,2022 年论文量数为7 907 篇,8 年增长率领先全球,增幅达9.27%。
从全球π8 论文总量TOP10 国家π 因子分布来看( 图5),美国π 因子领先全球,在波动中略有上升,增幅为2.57% ;而中国π 因子8 年增速领先全球,增长率高达12.88%,其中π 因子在2020、2022 排名全球第二。
2.2 全球π8 TOP500机构分型分析
2.2.1 全球π8 TOP500机构中国机构数量增长迅速
从全球π8 (π 因子) TOP500 机构主要国家机构数量分布对比( 图6) 来看,中国进入全球TOP500机构数量不断增长,2015-2017 年保持在40 个机构,2022 年已经增加至57 个;美国进入全球TOP500机构数量略有下降,从2015 年的160 个到2022 年的148 个;德国、英国、法国等国家进入全球TOP500机构数量在波动中基本保持稳定。
2.2.2 中国持续快速增长型机构数量最多
从全球π8 TOP500 机构总量来看( 表4),美国机构数为157 家,占比为31.4%;中国机构数51 家,占比为10.2%,其中类别1 ( 持续快速增长型) 机构中,中国数量最多,为15 家,类别2 ( 波动快速增长型) 机构中,美国数量最多,为55 家,类别3 ( 稳定略增长型) 机构中,美国数量最多,为46 家,类别4( 稳定略下降型) 机构中,美国数量最多,为33 家,类别5 ( 波动快速下降型) 机构中,美国数量最多,为10 家,类别6 ( 持续快速下降型) 机构中,法国数量最多,为2 家。
在中国进入π8 TOP500 的51 家机构中,增长类别(1、2、3) 机构占比90% 以上( 图7-1),下降类别(4、5、6) 机构占比不足10% ( 图7-2),整个中国生命科学与基础医学领域呈现快速成长之势。
2.2.3 中国科学院领跑全球持续快速成长型机构
在全球所有类别1 持续快速增长型机构中,中国机构占比最高为40%,其次是美国和法国,分别为32% 和8% ( 图8)。
在类别1 π 因子TOP10 机构中,中国科学院领跑全球持续快速成长型机构,其余9 家机构均来自于美国,分别为加州大学旧金山分校、宾夕法尼亚大学、约翰• 霍普金斯大学、西雅图华盛顿大学、耶鲁大学、亥姆霍兹国家研究中心联合会、康奈尔大学、圣路易斯华盛顿大学、纪念斯隆凯特琳癌症中心等( 图9)。
中国科学院共有20 个研究所进入中国π8TOP100机构,全部为增长类别(1、2、3) 机构,其中中国科学院深圳先进技术研究院、中国科学院微生物研究所、中国科学院动物研究所、中国科学院分子细胞科学卓越创新中心/ 生物化学与细胞生物学研究所、中国科学院上海药物研究所、中国科学院分子植物科学卓越创新中心/ 植物生理生态研究所、中国科学院脑科学与智能技术卓越创新中心( 神经科学研究所)、中国科学院生物物理研究所、中国科学院遗传与发育生物学研究所、中国科学院古脊椎动物与古人类研究所增速较快( 图10)。
2.3 中国π8 TOP100机构(城市群&地区)分型分析
2.3.1 京津冀城市群8年π因子总量连年领先
中国π8TOP100 机构中,京津冀城市群有25 家,数量最多,长三角城市群有24 家,京津冀、长三角两个城市群机构数占去中国π8 TOP100 机构的半壁江山【iii】 ( 图11)。
从π8 TOP3 中国城市群& 地区π 因子对比数据来看,京津冀城市群8 年π 因子总量连年领先,并呈现逐年上升趋势,长三角城市群、粤港澳城市群8 年π 因子总量也呈现逐年上升趋势( 图12)。
2.3.2 长三角持续快速增长型机构数量最多
从中国π8 TOP100 机构( 城市群& 地区) 分型总体情况来看,长三角、京津冀以及粤港澳大湾区的整个生命科学与基础医学领域呈现快速成长之势。长三角类别1 持续快速增长型机构数最多,为8 家,增长类别(1、2、3) 机构占比90% 以上;京津冀类别1 持续快速增长型机构数为8 家,均为增长类别(1、2、3) 机构;粤港澳大湾区类别1 持续快速增长型机构数为4 家,均为增长类别(1、2、3)机构( 表5)。
2.3.3 π8 TOP3中国城市群&地区分型各具特色
从中国π8 TOP3 城市群城市发文量以及π 因子占比分布来看,京津冀、长三角以及粤港澳三个城市群城市占比各具特点,北京在京津冀城市群中独占鳌头,上海引领长三角城市群,其他各城市协同发展,广州、香港、深圳在粤港澳大湾区呈现几近三分天下之局势( 图13)。
从长三角持续快速成长型机构分布图来看,复旦大学、上海交通大学、浙江大学引领长三角持续快速成长型机构,上海科技大学、南京医科大学、安徽医科大学、南京农业大学也成长迅速,西湖大学成立五年来迅速崛起,取得了突飞猛进的成绩,未来十分可期( 图14)。
从京津冀持续快速成长型机构图来看,北京大学、清华大学、中国医学科学院北京协和医学院引领京津冀持续快速成长型机构,中国农业科学院、中国农业大学、首都医科大学、天津医科大学也在原有基础之上快速成长( 图15)。
从粤港澳大湾区持续快速成长型机构图来看,中山大学、香港大学、南方科技大学引领粤港澳大湾区持续快速成长型机构,广东省医学科学院近三年也快速成长( 图16)。
3 分析与讨论
从总体发展情况来看,在过去8 年里,中国生命科学与基础医学年度发文量增速与年度π 因子增速均居全球之首,中国持续快速成长型机构数占比全球领先,中国科学院领跑持续快速成长型机构,其下属机构也在波动中快速增长,中国生命科学和基础医学飞速发展,得益于“人才回流”和“资金投入”的双轮驱动,其科技创新发展进入快车道。但是美国在年度发文量和年度π 因子体量上均远超其他国家,显示其在该领域的强大实力。与美国的领先地位相比,中国在总量上仍存在一定的差距。未来,中国应继续加大在研究前沿、颠覆性技术等领域的资金投入,全方位、多维度吸引海外优秀人才回国发展,在相关领域凝聚更多顶尖人才,瞄准领先机构和领先团队,加强相关领域国际合作与交流。π 指数也将聚焦研究前沿、颠覆性技术的识别与评价,构建顶级领域高质量人才和团队的评价、遴选与引进体系,助力中国生命科学与基础医学的高质量发展。
从区域发展情况来看, 在过去8 年, 中国TOP100 机构主要分布在长三角、京津冀、粤港澳三个城市群中,它们的年度发文量、年度π 因子均呈现快速增长趋势,这三个城市群正成为中国生命科学与基础医学发展的“火车头”,正在跑出加速度。作为世界级城市群的长三角城市群持续快速成长型机构最多,8 年发文总量连续第一,上海、南京、杭州、合肥、苏州等五城协同发展。从2023 国家创新城市排名来看[5],长三角地区占据半壁江山,五城( 上海、南京、杭州、苏州、合肥) 跻身前十。长三角五城在基础研究和科技创新两方面的区域聚集效应明显。π 指数也将评价深入到学科领域与地域,对标世界级城市群,为中国城市群发展提供定向咨询服务。
从机构发展情况来看,在过去8 年,中国生命科学和基础医学蓬勃发展,中国持续快速增长型机构数量最多,增长类别(1、2、3) 机构占比90% 以上,北京大学、清华大学、复旦大学、上海交通大学、中山大学、浙江大学、中国医学科学院北京协和医学院等机构呈现持续快速成长的发展趋势。但是在数量和体量上和美国相关机构还存在一定差距,从全球π8 TOP500 机构总量来看,美国机构数为157家,中国有51 家。未来,π 指数也将针对细分领域,聚焦人才队伍建设,瞄准国际领先机构和团队构建深层次、多维度的评价体系,为中国生命科学与基础医学的高质量发展提供重要支撑。
基金项目:中国科学院文献情报能力建设专项(E3290422)子课题“生命科学与健康领域科技态势分析与服务”
*通信作者:E-mail: jryu@sinh.ac.cn
[参 考 文 献]
[1] 阮全贵,高永东.期刊学术交流与基础研究成果的评价.中国科技期刊研究, 1997, 8: 13-5
张永娟,博士,副研究员,中国科学院上海营养与健康研究所生命科学信息中心战略情报部π 指数团队主管,上海图书馆学会青年学者委员会副主任。主要从事科研评价、数据治理与知识组织等工作,负责设计研发的基于关联数据的π 指数知识服务平台获2023 年中国图书馆学会年会用户研究与服务创新案例及2018 年华东地区科学技术情报成果奖一等奖。先后主持和参与科技部、中国科学院、上海市科委、上海市新闻出版局、国家社科及上海市社科等来源课题,发表中英文学术论文20 余篇,参编著作4 部,申请发明专利5 项。
于建荣,研究馆员,主要从事生命科学及相关学科领域的战略情报和学科情报研究。
《生命科学》是由中国科学院上海营养与健康研究所主办,国家自然科学基金委员会生命科学部和中国科学院生命科学和医学学部共同指导的综合性学术期刊。1988年创刊,原刊名为《生物学信息》内部发行;1992年起更名为《生命科学》,公开发行CN31-1600/Q,大16开,96页。本刊是“中文核心期刊” “中国科技核心期刊” “中国科学引文数据库来源期刊(CSCD)”。