在生命科学领域,海量的信息纷繁复杂,如何综合整理与理解变得十分困难。Rodriques和他的团队,成立了一家初创公司FutureHouse,目前取得了一项重要突破。
他们构建的基于人工智能(AI)的系统,能够在几分钟内生成比维基百科更准确的综合知识。该系统为大约17000个人类基因生成了维基百科风格的条目,其中大多数基因以前并没有详细的页面。
Rodriques并不是唯一一个利用AI来综合科学信息的人。几十年来,学者们一直在努力寻找加快研究主体汇编成综述的方法,但这一任务往往耗时费力,且写成的综述在发布时可能已经过时。
大型语言模型(LLM)的兴起,如ChatGPT等工具的基础生成式AI程序,激发了人们对自动化这一任务的新兴趣。
Nature在本月中上旬,发表了一篇评述性文章,表达了AI在科学中的运用,带来的便利与担忧。
一些较新的人工智能科学搜索引擎已经可以通过查找、排序和总结出版物来帮助人们制作叙述性文献综述,但它们在生成高质量评论方面还有很长的路要走。
大多数研究人员认为,完全自动化的系统评价,特别是涉及严格的论文检索、评估和荟萃分析的任务,还需要很长时间才能实现。
与AI带来的便利性同时而来的,还有学界对AI工具的担忧。
他们担心这些工具可能会导致更草率、不准确或误导性的评论,从而污染文献。
伦敦大学学院的James Thomas指出,几十年来关于如何进行良好证据综合的研究可能会因此受到破坏。计算机辅助审阅虽然已经在帮助研究人员搜索和解析研究文献方面发挥了作用,但ChatGPT等系统的出现引发了人们对通过将LLM与其他软件相结合来加快这一过程的兴趣。
但是,要求AI聊天机器人从头开始撰写学术文献综述,仍然是非常天真的想法,因为这些LLM可能会利用各种来源的信息,包括可信的学术研究和不准确的博客,而不会权衡什么是最相关、最高质量的文学作品。
尽管如此,一些AI驱动的科学搜索引擎,如Consensus和Licit等,已经开始通过预选论文的语料库来提取见解,并引用其来源给出答案。这些工具可以提高审稿和写作过程的效率,但大多数AI科学搜索引擎仍然无法自主生成准确的文献综述。它们的输出更像是“一个通宵达旦地想出几篇论文要点的本科生的水平”。
对于全文搜索的挑战,FutureHouse的PaperQA2系统提供了一个解决方案。
该系统能够搜索多个学术数据库的相关论文,并尝试访问开放获取和付费内容的全文。PaperQA2通过消化论文的全文来生成高质量的综述,但运行成本很高。
FutureHouse团队通过生成关于人类个体基因的维基百科风格的文章来测试该系统,并发现人工撰写的文章包含的“推理错误”是AI工具撰写的文章的两倍。
系统评价的制作比叙述性摘要更加复杂和耗时。它们可能需要数月甚至数年才能完成。但随着AI技术的发展,一些工具已经开始帮助研究人员自动化系统评价的某些步骤。
可系统综述爱好者仍然担心AI工具可能无法满足研究的两个基本标准:透明度和可重复性。因此,他们希望看到更多发表的关于AI系统准确性和可重复性的评估。
信息合成的自动化也存在风险。许多系统综述已经是多余的或质量差的,而AI可能会使这些问题变得更糟。然而,AI也可以鼓励研究人员快速检查以前发表的文献,从而提升他们的研究水平。
Glasziou认为,AI工具可以帮助科学家制作高质量的评论,但也可能助长不合格评论的快速生成。因此,他需要平衡这两种力量,并确保已发表的文献的净影响是积极的。
一些研究人员,还呼吁非营利组织构建并仔细测试AI工具,以确保这些工具能够帮助我们提供的答案是正确的。
总之,随着技术的不断发展,人工智能在科学文献综述方面的应用前景将更加广阔,但同时也需要我们保持谨慎和小心。
免责声明