创新是推动科学研究进步的核心动力。然而,面对庞大的知识体系和日新月异的技术发展,如何打破思维的局限,激发真正的科研创意(Ideas),成为了科学家们亟待解决的难题。如今,人工智能大模型的发展正在为科研提供全新的可能性:它不仅能迅速筛选海量信息,还能在深度学习的基础上为研究者提供灵感,拓展他们的视野。为此,浙大联合阿里提出SciPIP(Scientific Paper Idea Proposer),为基于大模型的科研创意(Ideas)生成提供了新的思路。
https://arxiv.org/pdf/2410.23166https://github.com/cheerss/SciPIPhttps://huggingface.co/spaces/lihuigu/SciPIP据作者团队回复,当前初版文献中主要探讨AI领域的科学创意生成,更多学科的文献数据和创意生成代码也即将开源,但是由于学科间的巨大差异,创意生成过程与AI领域会有较大区别,目前针对其他学科的算法还在不断迭代中。SciPIP类比人类做科研的过程,将科研创意的生成分为两个步骤:大量文献阅读和新创意的提出。使用过程中,用户只需描述感兴趣的领域背景,SciPIP将在自行构建的文献库中搜索相关的文献、学习和思考现有算法、总结当前领域面临的问题,并提出新的Ideas解决当前的问题(有没有感觉和你做科研的过程差不多)。在整个过程中,SciPIP要解决的问题有:如何从海量文献中快速找出最相关的内容、如何科学地阅读文献、如何生成新颖的Ideas。在文献检索方面,现在一些基于大模型的AI Scientist在文献检索阶段大多依赖Google等搜索引擎,而这些引擎均通过关键词匹配等方式进行文献检索,不利于提取文献的语义信息和核心思想。为此,本文构建了自己的文献检索数据库,即爬取了各大顶级期刊会议、Arxiv、Semantic Scholar等网站的学术文献数据,并离线对所有数据进行了清洗和预处理。当前,SciPIP背后的数据库已经囊括了自然语言处理、计算机视觉、多媒体等AI学科的文献以及其他学科的文献共计60万篇(不过当前文献和代码中公开的算法仅包含了对自然语言处理和计算机视觉领域数据的讨论和解析)。在文献阅读方面,每篇文献的PDF文件都将经过自动化解析提取核心结构部分,包括:标题、摘要、引言、方法、总结、参考文献等。然而,原始文献大多篇幅较长,文献的结构也不尽相同,现有大模型虽然处理复杂长文本的能力一直在提升,但依然存在遗忘等问题。为了方便大模型的理解和处理,SciPIP利用大语言模型对文献的各个章节进行了进一步的结构化,从每篇文献中提炼出如下信息:- 文献总结(Summary):根据题目、摘要和引言对文献核心内容进行简要总结。
- 背景(Background):根据题目、摘要和引言提供文献研究问题的背景和动机。
- 主要创意(Main Ideas):根据引言总结文献的主要研究成果和创新点。
- 详细创意(Detailed Ideas):根据方法部分总结算法的核心内容
- 关键词(Entities):提取与文献密切相关的关键词,构建实体-文献的图结构。
在数据库的构建上,本文结合了向量数据库和图数据库的构建思想,如图1所示。首先,使用文本嵌入大模型将文献的总结(Summary)、背景(Background)、主要贡献(Main Ideas)转化为高维文本向量。这些向量用于构建一个高效的向量数据库,通过相似度检索和聚类分析,可以在海量文献中迅速找到与某个查询相关的文献。这种基于向量空间的检索方法,能够克服传统关键词检索的局限性,更好地捕捉语义层次的相似性。其次,为了进一步丰富数据库的结构化信息,本文利用提取的关键词作为Entity节点,并将这些关键词与相应的Paper节点进行连接,构建了一个学术图谱。在该图谱中,每篇文献通过其关键词与其他文献、研究方向或领域内的相关的关键词相连。这种图数据库的结构支持图分析,能够帮助大模型更深入地挖掘学术研究中的潜在关联和趋势。在检索过程中,SciPIP通过多维度的检索策略,有效地结合了语义理解、关键词匹配、引文关系和数据驱动的聚类技术如图2所示,能够更全面、精准地定位相关领域的研究成果,具体实现方式如下:- 背景语义编码与关键词提取扩展:用户首先输入研究问题的背景。SciPIP将背景文本进行语义编码,生成对应的背景语义向量,并提取得到初始关键词列表。根据背景语义向量,找到背景最相关的部分文献以及其关键词,由此对初始关键词列表进行扩展,增强检索覆盖面。
- 关键词检索:在得到关键词列表,系统基于关键词和实体的关联性进行初步的文献检索。由于文献检索结果的数量限制,SciPIP会优先保留那些对应实体出现次数较少的部分,以避免大量重复和冗余的文献。
- 引用共现扩展:在实体检索的基础上,SciPIP进一步利用引用共现关系扩展检索到的文献。通过分析文献之间的引用网络,选出共同被高度引用的文献,推测它们之间的潜在关联性。这一过程有助于发现一些隐含的、但高度相关的研究成果,从而增加文献检索的全面性。
- 聚类后处理:所有检索到的文献,根据文献概括、背景和主要贡献的语义编码,进行聚类处理。之后,SciPIP会根据每一类中文献的语义相似度分数进行排序,确保每个类别都至少包含一篇文献,从而避免在某一类中产生过多冗余文献。
- 最终文献筛选:在保证每个类别都至少包含一篇文献的前提下,SciPIP根据和给定背景的语义相似度对文献进行进一步的排名,选出Top K篇最相关的文献作为最终检索结果。通过这种方式避免候选集合中大量重复主题的文献,从而提高检索结果的多样性和有效性。聚类后处理强调每个聚类至少选出一篇文献,而不仅仅依赖于语义相似度,增强了检索的召回率和信息覆盖面。
好的科研创意不仅要新颖,还要看起来合理、有一定的可行性,不然都让人没有实施的动力。大模型可以不顾所有前人的算法,天马行空地提出新的创意,但创意的合理和可行性将受到影响;同样,也可以循规蹈矩,从已有文献中寻求解决方案,但容易产生A+B+C的拼凑创意(如SciPIP-A的策略):直接提案方法(SciPIP-A):如图3(a)所示,这种方法不依赖头脑风暴,而完全基于文献检索结果进行想法生成。在此方法中,系统首先基于用户提供的背景进行文献检索,并基于这些文献生成创新的科研想法。因此,本文主要尝试了两种新的双分支生成策略,这些策略本质上利用了两种类型的信息:一是从阅读过的文献中提取的知识,二是通过头脑风暴激发的新创意,然后再将这些内容进行整合。- 第一种双路径提案方法(SciPIP-B):如图 3(b) 所示,SciPIP-B方法将用户提供的背景信息分为两个处理分支:在生成了两个分支的创意后,系统将输出结果进行整合、过滤和细化,从而得到最终的科研创意。此方法通过结合文献驱动的分析与自由创意,能够平衡现有知识的借鉴与全新创意的诞生。
- 分支一:利用背景信息进行文献检索、问题总结,并结合已检索的文献来生成研究想法。
- 分支二:独立于文献检索,直接从用户背景中进行头脑风暴,生成研究创意。
- 第二种双路径提案方法(SciPIP-C):如图 3(c) 所示,SciPIP-C方法在SciPIP-B的基础上进行了一定的扩展。在此方法中,通过大型语言模型生成的创意不仅用于直接生成科研想法,还与用户提供的背景信息结合,进一步用于实体提取和文献检索的优化。具体而言,LLM生成的内容有助于识别背景中的关键实体,进而指导更精准的文献检索和相关领域的文献分析。这个方法在头脑风暴的基础上,进一步增强了文献检索,能够更全面地支持科研创意的生成。
本文作者在初版的文献中提供了自然语言处理领域的实验结果。具体来说,SciPIP将2023年及以前的自然语言处理顶会文献作为文献检索的数据源,并将ACL 2024中实际发表的1,968篇文献作为“真值”进行对比分析。科研创意生成评估
图4为SciPIP生成的两个创意,例如第一个在给定背景——在无监督场景中复杂语义进行识别下,生成的创意提到了通过多模态对比学习,通过将视频、音频和文本数据嵌入同一空间并通过对比学习优化其相似性,这和真实方法提到的以理解为将文本信息作为核心进行多模态对比学习的核心想法是类似的。图4:SciPIP生成的科研创意和ACL 2024上发表的创意对比表1展示了每100个输入背景平均生成4至5个与ACL 2024会议文献高度匹配的创意。这表明,SciPIP能够生成与人类思维高度一致的创新性想法,并且在1968个输入背景下,成功生成了91个与ACL 2024文献高度相似的创意。值得注意的是,生成的得分在0到3分之间的科研创意并非完全没有价值,这些创意可能具有潜在的科研价值,但是尚未得到发表!表1:SciPIP生成的科研创意和ACL 2024上文献的相似度为了进一步评估这些创意的实际潜力,本文生成的科研创意进行了更为深入的分析,重点考察其新颖性和可行性。为了实现这一评估,本文使用GPT-4模型对生成的创意进行排序。在每一轮评估中,从5个不同相似度得分的创意中选取一个,并要求模型根据其新颖性和可行性对其进行排序。在记录了所有评估轮次中,依据不同相似度得分的创意在被模型评为第一的概率(即胜率)。最终评估结果如表2所示,发现尽管某些已发表的创意与生成创意在相似度上较低,但这些创意在新颖性方面却表现得更为突出。而在可行性方面,生成创意和已发表创意的表现则相对接近。表2:不同相似度得分的科研创意在新颖性和可行性方面的胜率本文首先评估了系统在给定背景下的文献检索性能,如表3所示。具体而言,通过对比系统检索到的文献与真实参考文献的召回率。使用Recall@10作为主要评估指标,Recall@10表示当检索结果被限制为返回10篇文献时,检索结果中与真实参考文献集合重合的文献比例。例如,当某篇文献的实际参考文献集包含20篇文献,且Recall@10值为0.419时,意味着大约8篇相关文献被成功检索到。评测结果表明,所提出的文献检索方法在Recall@10指标上优于现有的文献检索系统,如SCIMON和ResearchAgent,能够更为精准地检索到相关文献。