Nature | AI撰写系统综述（systematic review）可行吗？

创业 2024-11-13 22:51 北京

人工智能可以帮助理解世界科学，但也存在风险

作者：Helen Pearson

Illustration: Piotr Kowlaczyk

当萨姆·罗德里格斯还是一名神经生物学研究生时，他被科学的一个局限性所困扰。即使研究人员已经产生了理解人类细胞或大脑所需的所有信息，'我也不确定我真的懂了'，他说，“因为没有人能够理解或阅读所有文献并获得全面的视角。”

五年后，罗德里格斯表示，他正利用人工智能（AI）来解决这个问题。9月，他和他在美国初创公司FutureHouse的团队宣布，他们构建的基于AI的系统可以在几分钟内生成比维基百科页面更准确的科学知识整合。该团队随即生成了大约17,000个人类基因的维基百科式条目，其中大多数以前没有详细的页面。

罗德里格斯并不是唯一一个转向人工智能来促进整合科学的人。几十年来，学者们一直在努力加速将大量研究成果汇编成综述的繁重任务。“它们太长了，它们非常密集，而且它们经常在写完的时候就已经过时了，”伦敦国王学院研究综述的伊恩·马歇尔说。业界对大型语言模型（LLM）的兴趣激增，这些模型是 ChatGPT 等工具背后的生成式人工智能程序，正在引发人们对自动化任务的浓厚兴趣。

一些新兴的 AI 驱动的科学搜索引擎已经可以帮助人们开展文献综述的撰写——对研究的书面概述——通过查找、排序和总结出版物。但它们还无法独立完成高质量的综述。最具挑战性的任务是“金标准”系统综述（'gold-standard' systematic review），它涉及严格的程序来搜索和评估论文，并且通常进行荟萃分析（meta-analysis）来综合结果。大多数研究人员都认为，这些领域距离完全自动化还有很长的路要走。“我相信我们最终会实现这一目标，”澳大利亚黄金海岸邦德大学的证据和系统综述专家保罗·格拉齐奥说。“我只是无法告诉你这是 10 年后还是 100 年后。”

然而，研究人员也担心，人工智能工具可能会导致更多粗制滥造、不准确或误导性的综述（reviews）污染文献。"令人担忧的是，几十年来关于如何进行良好证据整合（evidence synthesis）的研究成果将开始受到破坏，"伦敦大学学院证据合成研究员詹姆斯·托马斯说。

计算机辅助评审

几十年来，计算机软件一直在帮助研究人员搜索和解析研究文献。早在大型语言模型出现之前，科学家就已经在使用机器学习和其他算法来帮助识别特定研究或快速提取论文中的发现。但 ChatGPT 等系统的出现，引发了人们对将大型语言模型与其他软件相结合来加速这一过程的狂热兴趣。

研究人员表示，要求ChatGPT或任何其他AI聊天机器人从头开始撰写学术文献综述，这将是极其幼稚的。这些LLMs通过对海量文本进行训练来生成文本，但大多数商业AI公司并未透露模型训练所使用的数据。马歇尔说，如果要求ChatGPT之类的LLM对某个主题的研究进行综述，它很可能会借鉴可信的学术研究、不准确的博客以及其他未知信息。"它不会对哪些是最相关、最优质的文献进行权衡。"由于LLMs通过反复生成对查询在统计学上合理的词语来工作，因此它们会对同一个问题给出不同答案并产生“幻觉”——包括众所周知的、不存在的学术参考文献。“在研究整合中被认为是良好实践的流程都没有发生，”马歇尔说。

一个更复杂的过程包括将一组预先选定的论文上传到一个大型语言模型，并要求它从这些论文中提取见解，仅根据这些研究来回答问题。这种“检索增强生成”似乎减少了幻觉，尽管它并不能完全防止幻觉。该过程还可以设置为让大型语言模型引用它获取信息的来源。

这正是像 Consensus 和 Elicit 这样的专门的、人工智能驱动的科学搜索引擎的基础。大多数公司不会透露其系统工作原理的具体细节。但他们通常会将用户的查询转化为对学术数据库（如 Semantic Scholar 和 PubMed）的计算机搜索，并返回最相关的结果。

然后，LLM 对这些研究进行总结，并将它们综合成一个包含引文的答案；用户可以根据自己的需要，选择要包含的工作。“它们首先是搜索引擎，”新加坡管理大学数据服务主管、Altools 博客作者 Aaron Tay 说。“至少，它们引用的内容绝对是真实的。”

“这些工具‘当然可以提高你的审阅和写作效率’”，奥胡斯大学南部丹麦大学的博士后研究员穆什塔克·比拉尔说，他为学者提供人工智能工具的培训，并设计了自己的工具，名为 Research Kick。另一个名为 Scite 的人工智能系统，例如，可以快速生成详细的论文解析，以支持或反驳一个主张。Elicit 和其他系统还可以从论文的不同部分提取见解——方法、结论等等。比拉尔说，‘你可以外包大量的劳动’。

和其他一些人工智能工具一样，Elicit旨在通过总结论文和提取数据来帮助开展学术文献综述撰写。Credit: Nature

但是，比拉尔说，大多数人工智能科学搜索引擎无法自主生成准确的文献综述。它们的输出更像是“熬夜的本科生，总结了几篇论文的主要内容”。他说，研究人员最好利用这些工具来优化综述过程的某些部分。Elicit 的工程主管詹姆斯·布雷迪表示，其用户正在“非常有效地”增强审查的步骤。

一些工具（包括 Elicit）的另一个局限性是，它们只能搜索开放获取的论文和摘要，而不是文章的全文。（Elicit 位于加利福尼亚州奥克兰，搜索约 1.25 亿篇论文；Consensus 位于马萨诸塞州波士顿，搜索超过 2 亿篇论文。）Bilal 指出，许多研究文献都设有付费墙，搜索大量全文在计算上非常消耗资源。他说：“让 AI 应用浏览数百万篇文章的全部文本将花费大量时间，并且成本将变得过高。”

全文搜索

对于罗德里格斯来说，资金供应充足。因为位于加州旧金山的非营利组织 FutureHouse 背靠前谷歌首席执行官埃里克·施密特和其他资助者。FutureHouse 成立于 2023 年，旨在利用人工智能自动化研究任务。

今年 9 月，罗德里格斯和他的团队发布了 PaperQA2，这是 FutureHouse 开源的原型人工智能系统。当它接收到一个查询时，PaperQA2 会在多个学术数据库中搜索相关论文，并尝试访问开放获取和付费内容的全文。（罗德里格斯表示，该团队通过其成员的学术关系可以访问许多付费论文。）然后，该系统会识别并总结最相关的元素。部分原因是 PaperQA2 会消化论文的全文，因此运行它很成本很高，他说。

FutureHouse 团队使用该系统生成关于单个人类基因的维基百科风格文章来测试该系统。然后，他们将从这些文章中提取的数百条 AI 生成的陈述，以及来自同一主题的真实（人类撰写）维基百科文章的陈述，提供给一个由博士和博士后生物学家组成的盲审小组。该小组发现，人类撰写的文章中包含的“推理错误”（即书面主张没有得到引文的充分支持）是 AI 工具撰写文章的两倍。由于该工具在这一方面胜过人类，该团队将其论文命名为“语言代理实现了科学知识的超人类整合”。

美国初创公司FutureHouse的团队推出了人工智能系统来总结科学文献。他们的董事兼联合创始人山姆·罗德里格斯（Sam Rodriques）坐在椅子上，右三。Credit: FutureHouse

Tay 说，PaperQA2 和另一个名为 Undermind 的工具比传统搜索引擎返回结果需要更长时间——几分钟而不是几秒——因为它们进行更复杂的搜索，例如，使用初始搜索的结果来追踪其他引用和关键词。"所有这些加起来计算量非常大，速度很慢，但可以提供更高质量的搜索，"他说。

系统性挑战

文献的叙述性总结已经很难撰写，而系统性综述则更加困难。它们可能需要人们花费数月甚至数年才能完成。

一项系统性综述至少包含 25 个步骤，这是根据 Glasziou 团队的细化分析得出的。在梳理文献后，研究人员必须过滤他们的长列表，以找到最相关的论文，然后提取数据，筛选研究以发现潜在的偏差，并综合结果。（许多步骤由另一位研究人员重复进行，以检查是否存在不一致。）这种费力的方法——旨在严谨、透明和可重复——被认为在医学领域是值得的，例如，因为临床医生使用这些结果来指导有关治疗患者的重要决策。

2019 年，在 ChatGPT 出现之前，Glasziou 和他的同事着手创造一项科学世界纪录：在两周内完成一项系统性综述。他和其他人，包括 Marshall 和 Thomas，已经开发了计算机工具来减少所需时间。当时可用的软件菜单包括 RobotSearch，这是一种机器学习模型，经过训练可以快速识别来自研究集合的随机试验。RobotReviewer 是另一个 AI 系统，它有助于评估一项研究是否存在偏差风险，例如，因为它没有得到充分的盲法。'所有这些都是重要的工具，可以缩短进行系统性综述的时间，'Glasziou 说。

计时器于 2019 年 1 月 21 日星期一上午 9:30 开始。该团队在 2 月 1 日星期五午餐时间越过截止日期，总共工作了九天。“我感到兴奋，”英国牛津大学流行病学家安娜·梅·斯科特说，她在邦德大学领导了这项研究；每个人都用蛋糕庆祝。从那时起，该团队将其记录缩短至五天。

该过程能否更快？其他研究人员也一直在努力使用自动化系统评价的各个方面。2015 年，Glasziou 成立了国际系统评价自动化合作组织，这是一个niche community，恰如其分地，已经产生了关于自动化系统评价工具的几个系统评价。但即便如此，“[工具] 并没有得到广泛的接受”，马歇尔说。“这只是一个技术成熟度的问题。”

Elicit 是一家声称其工具可以帮助研究人员进行系统性综述，而不仅仅是叙述性综述（narrative reviews）的公司。Brady 表示，该公司并没有提供一键式系统性综述服务，但其系统确实自动化了一些步骤，包括筛选论文、提取数据和见解。Brady 表示，大多数使用 Elicit 进行系统性综述的研究人员都会上传他们使用其他搜索技术找到的相关论文。

系统综述的狂热者担心，人工智能工具有可能无法满足研究的两个基本标准：透明度和可重复性。“如果我看不到使用的方法，那么它就不是一篇系统的综述，它只是一篇综述文章，”Justin Clark说，他是Glasziou团队的一员，负责开发综述自动化工具。布雷迪说，审稿人上传到杂志的论文是他们的初始文献的“优秀、透明的记录”。至于可重复性：“我们不能保证在相同步骤的重复中我们的结果总是相同的，但我们的目标是在合理的范围内做到这一点，”他说，并补充说，随着公司改进其系统，透明度和可重复性将是重要的。

文献综述方面的专家表示，他们希望看到更多关于旨在帮助撰写文献综述的 AI 系统的准确性和可重复性的公开评估。克拉克说：“构建酷炫的工具并尝试新事物真的很有趣，但进行严格的评估研究却是一项艰巨的任务。”

今年早些时候，克拉克领导了一项对使用生成式人工智能工具辅助系统性综述研究的系统性综述。他和他的团队发现，只有 15 项已发表的研究对人工智能的性能进行了充分的比较，以评估其与人类的性能。这些结果尚未发表或在同行评审中，表明这些人工智能系统可以从上传的研究中提取一些数据，并评估临床试验的偏倚风险。克拉克说："它在阅读和评估论文方面似乎做得不错，但在所有其他任务中表现都很差"，包括设计和进行彻底的文献检索。（现有的计算机软件已经可以完成使用荟萃分析综合数据的最后一步。）

Glasziou 和他的团队仍在尝试通过改进的工具来缩短他们的审查记录，这些工具可以在他们称之为“证据审查加速器”的网站上获得。“这不会是一件大事。它意味着你每年都会越来越快，”Glasziou 预计。例如，在 2022 年，该小组发布了一个名为“方法向导”的计算机工具，该工具会向用户询问有关其方法的一系列问题，然后在不使用人工智能的情况下为他们编写一个协议。

仓促的评论？

自动整合信息也存在风险。研究人员多年来一直知道，许多系统性综述是冗余的或质量低劣的，而人工智能可能会加剧这些问题。作者可能明知故犯或无意中使用人工智能工具来快速完成不遵循严格程序或包含低质量工作的综述，从而得到误导性的结果。

相比之下，格拉齐奥说，人工智能还可以鼓励研究人员在以前不会费心的时候快速查看以前发表的文献。"人工智能可能会提高他们的水平。"布拉迪说，将来，人工智能工具可以帮助识别和过滤掉质量差的论文，方法是寻找诸如 p 值作弊之类的明显特征，这是一种数据操纵形式。

格拉齐奥将这种情况视为两种力量的平衡：人工智能工具可以帮助科学家产出高质量的综述，但也可能助长劣质综述的快速生成。他说："我不知道这将对已发表的文献产生什么净影响。"

有些人认为，整合和理解世界知识的能力不应完全掌握在不透明的、以盈利为目的的公司手中。克拉克希望看到非营利组织构建和仔细测试人工智能工具。他和其他的研究人员对上个月来自两家英国基金会的公告表示欢迎，这两家基金会宣布将投资超过7000万美元用于证据整合系统。“我们只是想谨慎小心，”克拉克说。“我们想确保[技术]帮助我们提供的答案是正确的。”

Nature 635, 276-278 (2024)

doi: https://doi.org/10.1038/d41586-024-03676-9

References

1.Skarlinski, M. D. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2409.13740 (2024).

2.Borah, R., Brown, A. W., Capers, P. L. & Kaiser, K. A. BMJ Open 7, e012545 (2017).

3.Clark, J. et al. J. Clin. Epidemiol. 121, 81–90 (2020).

4.Blaizot, A. et al. Res. Synth. Methods 13, 353–362 (2022).

5.Ioannidis, J. P. A. Milbank Q. 94, 485–514 (2016).

http://mp.weixin.qq.com/s?__biz=MzI3MTE4MjIyMA==&mid=2247487086&idx=1&sn=b3594e4cd93643e391b4aceb1d830708

进化随想