【优先发布】人工智能驱动的科研范式变革与特征

文摘   2024-10-24 09:01   四川  


欢迎引用
刘云, 房浩超. 人工智能驱动的科研范式变革与特征[J]. 世界科技研究与发展, doi: 10.16507/j.issn.1006-6055.2024.08.012.
刘云 房浩超
(中国科学院大学公共政策与管理学院,北京 100190)

摘要:以ChatGPT为代表的大模型带来人工智能(AI)的突破性进展,科学家也在积极探索人工智能在科学研究上的应用前景,使得科学研究从实验范式、理论范式、计算范式、数据驱动范式,迎来了AI for Science(AI4S)的第五范式。本文分析当前科研范式变革进展,发现各科研范式之间互相继承和发展并在实践中相互渗透和融合。而人工智能的快速发展使得当前科研范式在思维方式、科研模式、组织模式、科研决策等方面发生重大变化,呈现出复杂系统性思维、平台化科研、开放共享的组织模式以及人机协同的决策模式等新特征。基于当前科研范式变革背景,本文从培养复合型人才、拓展应用场景、完善技术生态、数据安全和共享等维度提出了相应的建议和对策,以便更好地发挥人工智能在科研领域的重要作用。
关键词:人工智能;科研范式;变革;特征


科学研究是破解全球难题的重要手段,随着科学知识生产过程中的实用化趋向,科学研究的对象、功能和方式不断拓展,使得当前科学研究正在面临瓶颈,尽管全社会对科技的重视程度及投入越来越大,论文与专利越来越多,但颠覆性成果却越来越少,当前科学研究急需打破传统思维,推动科学范式的变革。以ChatGPT为代表的大模型技术带来人工智能(Artificial Intelligence,AI)的突破性进展,人工智能越来越多地融入到科学发现之中,帮助科学家产生假设、设计实验、收集和解释大型数据集,并获得仅使用传统科学方法可能无法获得的见解,使得科研范式发生变革性突破。例如,生物医药领域中,人工智能应用于mRNA和蛋白质结构领域,中美科学家开发的算法Linear Design,仅需11分钟就能生成可编码SARS-CoV-2刺突蛋白的最佳mRNA序列;Google公司DeepMind团队开发出的人工智能产品AlphaFold2可根据氨基酸准确预测出蛋白质结构;腾讯人工智能实验室(AI Lab)自研人工智能工具“tFold”有效提升了蛋白质结构预测精度等。

当前科学研究正在迎来人工智能驱动的第五范式,即AI for Science(AI4S),也有学者以“智能科学家”“科研智能化”“智能化科研”等不同的命名来研究这一范式。2020年初,美国能源部发布AI for Science报告,涵盖高能物理、材料科学、计算技术等领域,以促进人工智能在科学上的应用;2022年,阿里巴巴达摩研究院发表的《年度十大科技预测》报告中,AI for Science位居榜首;2023年3月,我国科技部会同国家自然科学基金委员会启动“人工智能驱动的科学研究”专项部署。作为人工智能发展与应用的一大趋势,国内外学术界及业界已对AI for Science形成共识。为更好地把握AI for Science带来的科研范式变革机遇,美国2023年10月成立人工智能与科技人才工作组,2024年4月发布《提高联邦政府的人工智能能力:人工智能人才激增的进展和建议》,旨在推动联邦政府加快聘用人工智能和人工智能赋能岗位人才。欧盟发布“地平线欧洲”第二个战略规划(2025—2027年),提供大量的资金支持人工智能研究项目。因此,亟须厘清人工智能背景下科研范式变革特征和趋势,为进一步提升科技创新的质量与效果,促进我国科技强国建设提供有力支撑。


 1 
科研范式变革

“范式”理论最初由美国科学哲学家托马斯·库恩于1962年在其著作《科学革命的结构》中提出,2007年图灵奖得主吉姆·格雷(Jim Gray)在《e-Science:一种科研范式的变革》报告中对库恩的“范式”和“科学革命”理论进行了延伸,并将科学研究方法的演变凝练成实验范式、理论范式、计算范式、数据驱动范式四类。随着数据的爆炸式增长以及计算能力的飞速提升,现代科学研究已经从小数据发展到大数据,再到小智能、深度智能的智能数据,人工智能可以处理更高维度、更多变量、更复杂的问题,在Jim四大范式研究的基础上,随着人工智能应用于科学研究,科研范式脱离数据范式,逐渐作为独立的新的范式,即第五范式。

学者们从不同角度研究了第五科研范式的内涵、特征、路径等。杜鹏等认为新科研范式内涵包含三个方面,仿真模拟和数据科学是推动科研范式变革的有效突破口,组织创新则成为推动科研范式变革的基础,而解决系统性复杂问题是推动科研范式变革的主要驱动力。王飞跃等强调第五范式以虚实交互、平行驱动的人工智能技术为核心,以智联网和区块链构建基础,以融入人的价值和知识为手段,以人机共融为特征。Leng等则认为跨学科知识和智能驱动是第五范式的特征。北京科学智能研究院发布的《2023AI4S全球发展观察与展望》提出,模型驱动、数据驱动、数据+模型驱动是AI4S的三条实现路径。从以上研究可以看出,第五范式以人工智能技术及数据驱动为核心,组织变革为推动科研范式变革的基础,以解决系统性复杂问题、人机协同、跨学科知识为特征,四大范式+AI为实现路径。

各科研范式间并非相互独立,而是存在明显的继承和发展关系,并且在具体的研究实践中相互渗透和融合。实验科学为理论科学提供了实验基础和经验数据,理论范式是各科研范式的核心,可以指导实验、计算科学,并通过实验和计算进行验证,而实验和计算会产生大量的原始数据。随着大数据时代的到来,大数据逐步作为理解、发现和探索理论的有力工具,也为实验和计算提供了有力的支撑。AI for science范式下,人工智能有效提升了实验、理论、计算、数据等能力,例如,机器学习可以助力理论的构建,实验、理论、计算和数据范式为第五范式的发展奠定了基础。科研范式也逐渐从“人脑”为主的实验和计算科学、电脑为主的数据科学、过渡到人机协同的人工智能驱动范式。然而,He和Burtsev通过设置三个测试标准(即人工智能应该自动进行发现,无需人工干预;它应该揭示一个具体的数学结构;激发新的研究应该具有足够的重要性),对人工智能进行测试,认为人工智能尚并不能进行理论发现。各科研范式关系见图1。

图1 科研范式关系


 2 
新科研范式特征

当前,科学研究在内容、方法、领域都发生了深刻的变化,研究内容正在逐步从“静态、平衡”向“动态、非平衡”的状态转变,从局部现象的研究向系统行为的探索延伸;研究方法逐渐转向定量预测及跨学科的交叉融合,实现了人工智能辅助的数据分析;研究领域也从碎片化的知识向集成化的知识体系转变,开始追求复杂性科学的探索、多尺度关联的研究。这要求科研人员具备更强的系统思维和动态分析能力,能够从整体和全局的角度研究复杂系统的运行规律和演化机制,运用先进的技术手段进行数据挖掘和知识发现,通过复杂性科学的方法和工具进行深入研究。人工智能在科研创新中的应用正在深刻地改变传统的科研范式,对思维方式、科研模式、组织模式和科研决策等方面产生重要影响,出现了新的特征(图2)。

图2 新科研范式特征
2.1 思维方式
科学创新是一项复杂的系统工程,而不是线性的输入和输出关系,线性思维方式已不适用于当下的很多科研活动,取而代之的是复杂性、系统性思维,如气候变化、生态系统等,涉及多个因素和变量,且各因素之间相互作用和影响。系统性思维能够帮助科研人员更好地理解这些系统的本质和规律,从整体上把握系统的运行机制。
2023年10月,Brenden和Marco在Nature上发文,运用一种元学习组合性的方法优化计算模型的组合技能,首次证明计算模型能掌握甚至超越人的系统泛化能力,人工智能的行为逐渐类似于人类能力。第五范式在思维方式上实现了对前四种研究范式的融合,为科学研究提供了新的路径。AI for Science通常涉及大量的数据和复杂的模型,这些数据和模型是动态变化的,科研人员需要具备动态性思维,能够及时捕捉数据和模型的变化,并进行相应的调整和优化,以应对复杂系统的变化和不确定性。
2.2 科研模式
利用前沿的人工智能技术可以更快地发现、挖掘更复杂的规律,而先进技术带来的无限创新与有限技术资源之间的矛盾限制了科研创新,使得分散式的“单打独斗”科研模式已不适应新的科研范式,“有组织”的科研模式具有资源整合能力强、创新要素集聚等优势,因此,依托人工智能建立的“平台”生态逐步成为支撑新范式的科研模式,“平台科研”是当前第五范式的重要特征。Linux/Windows、Android/iOS等操作系统是典型的“平台”。国外英伟达打造“AI+药物研发融合”智能平台Clara;深势科技推出Bohrium®微尺度科学计算云平台、Hermite®药物计算设计平台等微尺度工业设计基础设施,打造“计算引导实验、实验优化设计”的全新范式,为药物、材料领域带来极具突破性的计算模拟及设计工具,建立DeepModeling开源社区,开发开源科学软件包与算法;华为打造MindSpore大模型平台,实现集算法选型、创意分享、模型实验和大模型在线体验为一体的人工智能学习与实践的开源社区;百度推出PaddleScience基础软件等,都推动了AI for Science平台生态的发展。
TensorFlow、DeepModeling、MindSpore、PaddleScience等平台的成功也证明了开源协同的可行性。由Google开发的开源平台TensorFlow,被广泛应用于构建和训练各种人工智能模型,除了开发者,还有由研究人员、创意家和问题解决者组成的社区,提供各类解决方案或服务;百度飞桨PaddleScience开源深度学习平台,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,已经与高校、科研机构等开展了计算流体力学、分子动力学、动力气象学等方面的范例建设,形成了一些多学科交叉的开放性生态社区,加速人工智能平台生态建设。
2.3 组织模式
联合国教科文组织《开放科学建议书》的发布,标志着开放科学的概念逐渐达成全球共识。国际上多种针对产品开发的去中心化自治组织(Decentralized Autonomous Organizations,DAOs)和由Web3、区块链及智能合约技术驱动的针对基础研究的分布式自主科学(Decentralized science,De Sci)正蓬勃兴起,DAOs是De Sci的实现方式,为人工智能的应用提供了新的组织形式,作为一种通过代码运作的数字组织,通过智能合约进行数字化治理运维。在此模式的基础上,秦蕊等提出平行科研院所的概念,即运用人工智能、区块链、元宇宙、DAOs等新兴技术,通过虚实交互的方式实现数字化建设、分布式治理与智能化决策,并创新科研范式,最终形成智能化科研院所。也有学者提出HANOI框架,该框架是包含人类、人工世界、自然世界的有组织化的智能研究范式。可以看出,当前的组织模式逐步具有自下而上、开放共享、去中心和分布式的智能特征。
2.4 科研决策
对于以观察为主的实验范式、以演绎为主的理论范式、以建模分析为主的第三范式及以大数据为主的第四范式,研究者通常扮演观察者的角色,通过收集数据、分析现象来推断和验证假设或者理论。随着无限的知识量与有限的人脑容量之间的矛盾日益严重,综合人类知识和人工智能的第五范式,促使科研决策由依赖个人手动操作能力转变为依赖人机混合智能的自动分析处理,从基于模糊的主观决策转变为人机协同的精准决策,实现人的决策机制与人工智能分析的融合。强调了在研究中人类和机器的协同作用,人工智能不仅仅是工具,更是研究和决策过程中的协作者和增强者。
美国国防信息系统局2023年1月正式将以ChatGPT为代表的生成式人工智能技术列入技术观察清单,大力开发多源情报分析工具,同时通过多种途径收集作战数据,广泛强化辅助决策模型。Jamshid和James认为,将人类专业知识的分布结合起来,可以显著提高人工智能对未来发现的预测精读,而不仅仅是专注于研究内容的模型。学界需要在人工智能技术的协助下完善现有的科研范式和协作模式,而不是让人工智能复制人类已经掌握的能力,更不是预测近期将会问世的科学发现。

 3 
建议

面对人工智能时代下科研范式在思维方式、科研模式、组织模式、科研决策等多层面的变革,考虑到科研范式变革的复杂性及当前科学发展的现实需求,本文主要围绕人才培养、应用场景、技术生态、数据安全和共享提出四点对策建议。

3.1 培养复合型人才

AI for Science作为大量学科交叉,产学研紧密协作的新兴科研范式,需要跨领域人才的深度融合。需要相关从业者既有足够的科学学科背景,又要懂人工智能相关技术,还要具备将科学突破转化为产业创新的工程能力。如AlphaFold2,要求开发者既要了解蛋白质结构相关的生物学知识,又要了解深度学习等人工智能技术,还要有能力将算法软件化并推广到各大药厂与科研机构。因此,要大力培养多学科交叉复合型人才,鼓励科研人员积极利用和学习人工智能工具,高校建立跨学科的人才培养体系,同时,深化AI for Science领域的国际合作,培养更多的人才参与到AI for Science的发展中。

3.2 拓展应用场景
当前,模型即服务(Model as a Service,MaaS)、平台即服务(Platform as a Service,PaaS)、基础设施即服务(Infrastructure as a Service,IaaS)、软件即服务(Software as a Service,SaaS)实现了人工智能技术的简化应用,AI for Science技术在生物医药、化学和材料科学、地球科学等各研究领域加速落地,人工智能技术在研发创新场景的应用尚处于探索阶段,随着人工智能与科研创新的结合愈发精准,应用场景颗粒度不断收敛细化,应通过鼓励不同学科的专家与人工智能研究者进行深度合作,共同探索人工智能在各学科领域的应用可能性,发现新的应用场景,并提高人工智能技术的针对性和实用性。AI for Science的应用场景不仅局限于学术研究领域,还可以拓展到工业生产和产业化应用中。通过与企业和产业界的合作,可以将人工智能技术应用于实际生产过程,提高生产效率和产品质量。
3.3 完善技术生态
经过多年的发展,我国AI for Science在很多领域已经达到国际先进水平,但人工智能技术仍相对落后,尤其是针对特定科学问题的模型和算法研发创新不足。要加大人工智能相关平台建设的支持力度,为 AI for Science 范式变革提供支撑。推动模型研究与算法创新,尤其是针对特定科学问题的算法研发;开发数据基础设施、公共算力平台等算力基础设施建设;建立相应平台共享机制及数据标准,保证数据的质量和安全,营造良好的人工智能研发平台创新生态。
3.4 数据安全和共享
开放科学倡导对科学研究过程的透明化、可重复性、标准化和开放化,要求科学数据的质量可靠、安全有序、开放共享。人工智能在科学研究的应用中,由于缺乏具体的科学数据政策和标准化体系,面临科学数据无法汇交的问题。因此,需要建立相关数据标准,通过多单位共同采集和共享数据,按照分类分级原则积极开放科学数据与科研资源,有序推动科学研究数据的合规有效开发和应用,确保数据的质量和安全性的同时引导适度开放。例如,美国通过分批开放各研究领域的数据,促进材料、生物、医药等领域的人工智能应用发展。






编辑部信息

邮箱:bj@clas.ac.cn

电话:028-85223853

网站:www.globesci.com


【免责声明】出于科研和文化交流目的,本公众号主要发布《世界科技研究与发展》期刊的录用文章,或转载其他媒体与网站的图文资讯。文章仅代表作者本人观点,本公众号对文中陈述、观点判断保持中立。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。抄袭本文至其他渠道者引发的一切纠纷与本公众号平台无关。

世界科技研究与发展
《世界科技研究与发展》期刊官方公众号,为报道国际科技发展战略、规划、计划、态势、政策、管理、评价的科技期刊,刊登科技评述与展望、科技战略与规划、科技态势与趋势、科技预测与预见、科技政策与管理、科技评价与评估、科技决策与咨询等方面的文章。
 最新文章