读论文时如何辨别出“好东西”

文摘   2024-11-26 20:31   广东  

读论文时如何辨别出“好东西”

本文是编者阅读Abhishaike Mahajan的博客文章《Five things to keep in mind while reading biology ML papers》,再结合自身的一些认识,提炼总结的阅读生物学领域AI论文的一些“注意事项”。

正文

1. Benchmark很少能反映真实情况

盲目百分百相信Benchmark测试(例如:MoleculeNet、FLIP)上的结果是不对的。请记住,这些Benchmark创建出来是为了对比不同模型的真实能力,纯粹刷榜与实际可靠的模型鱼龙混杂,让人眼花撩乱。这时候就需要火眼金睛学会甄别出“好东西”。编者曾看到这种模型,换个数据集微调GPT,作者实验说它的模型在蛋白结构预测、功能预测、骨架设计、序列设计等多项任务上SOTA,这种无敌选手大概率就是“坏东西”。

如果Benchmark的数据集偏小,多样性不够,分布太集中,则更不太能测试出模型的能力,因为在跨数据集时产生的分布偏移是巨大的。例如:AlphaFold3在RNA单体预测任务上仅有8个体系,此时验证的结果即使再好,应用时各个模型的能力也许差不多。

如果Benchmark的数据集很大,多样性也有保证(例如:ProteinGym),那么该Benchmark的结果相对来讲会更加可信

大多数时候使用Benchmark是对标准化的一种妥协,而不是人们真正认同的东西!在一个数据集上有优秀的表现,在另一个数据集上不一定也表现优异。

那么,怎样才能构建出更好的Benchmark测试数据集?文章 [1] 给出了重要启示。需要更密切地关注实验分层+确保训练/测试分割包含不相似的分子(下图右边)。但不幸的是,使用这类数据集,通常也意味模型在Benchmark上表现更差。


2. 论文会选择有利的结果

就像典型的机器学习一样,生物学深度学习论文通常会将他们提出的模型,与一个更简单、更传统的基线进行比较。也就是说,论文的基线经常被操纵,使用极其基础版本的基线模型,而不是效果更优的模型。比如:此前介绍的蛋白突变稳定性预测的文章,该论文图1就没有对比ESM-IF的基线。

更常见的例子,是在蛋白-分子对接领域。一篇综述论文发现[2],AI docking论文在与传统docking方法对比时,经常使用不公平的参数配置。 当AI和传统方法都使用正确的配置参数时,文章[2]发现AI方法的表现很微妙,即AI方法在口袋发现方面具有优势,但在docking方面比传统docking方法严格上来讲更差!

另一个文章发现[3],Alphafold3论文中给出的对接基线,可通过多构像进行改进。令人惊讶的是,这个改进的对接基线(Gnina+系综构象)最终在准确性上接近Alphafold3(下图)。

总之就是,有些论文会精心挑选对自己有利的部分基线,取巧的选择不同的参数配置,来佯装自己模型的能力很强大。


3. 要学会甄别实用的模型

好奇心驱动的研究是好的,巨大的突破往往来自于好奇心。但由于AI社区相当重视新颖性,这可能会创造一个负反馈循环,其中实用性不强(但独特)的方法不会解决生物学中的实际问题,却占据了深度学习研究中的大部分。这反过来,导致更多的人开发这些实用性不强的AI模型。通俗点用一句话来讲,就是蹭热点发论文的人很多。

结合编者自身的体验,AI4Protein领域的AI模型,我会更加偏爱有实验结果、湿实验验证的论文,比如:RFdiffusion、ProteinMPNN这种

甚至有些时候,即使论文做了湿实验的验证,也不太能说明AI模型有多强大,比如:ProGen

某些论文没做湿实验也不能一竿子打死,说它不是“好东西”,比如:CarbonDesign。这个时候就需要一种叫“品味”的东西,大师Sergey在文章[4]证明了蛋白语言模型结合序列设计方法,设计出的蛋白在表达/溶解性上有更高的成功率;大师Sergey也在ColabDesign报告中[5]证明了结合MRF会提高序列设计恢复率,CarbonDesign[6]正是这样一种将Evoformer改成Inverseformer,再结合了蛋白语言模型、MRF的逆向序列设计算法(下图),所以它就是个“好东西”。


4. 了解湿实验方法的局限性非常重要

生命科学中使用的几乎所有实验都是容易出错的,而且不是以一种整洁、干净的随机噪声方式。 更像是“对某些蛋白或分子有效,但对其他分子则完全失效”。 比如:克隆桥扩增测序、LC-MS等实验技术可能在某些情况下无法产生可信的结果,但许多论文中仍然会使用。论文作者通常不会使这些失败结果变得明显,而且这里也没有用假图欺骗你!大多数专家在阅读论文时,已经对这钟实验技术的局限性了如指掌,因为这通常是该领域的标准,但新手可能会被绊倒。

一个间接的例子是PAINS,或泛实验干扰化合物(pan-assay interference compounds)。这些是化学上的“坏演员”,它们经常导致实验的假阳性/假阴性,因为它们与使用的测量方法(如荧光)相互作用,产生结合干扰。


感谢阅读这篇文章,如果读者有其他看法欢迎留言。

本文完,2024/11/26于地球的某个角落。

参考文献

[1]. Building ADME benchmark datasets that drive impact,https://www.inductive.bio/blog/building-better-benchmarks-for-adme-optimization

[2].Do Deep Learning Models Really Outperform Traditional Approaches in Molecular Docking?

[3]. Approaching AlphaFold 3 docking accuracy in 100 lines of code,https://www.inductive.bio/blog/strong-baseline-for-alphafold-3-docking

[4]. Language models generalize beyond natural proteins

[5]. ColabDesign - Tutorial on using structure prediction methods for protein design,https://www.youtube.com/watch?v=2HmXwlKWMVs&t=514s

[6]. Accurate and robust protein sequence design with CarbonDesign

进群交流

进群请认真填问卷!

广告勿扰,广告勿扰

往期合集

干货文章线上报告蛋白设计综述BinderCo-designBenchmarkAF3David BakerESMMaSIF结构预测语言模型骨架生成逆向折叠抗体设计多肽设计酶设计稳定性药物设计

关注我们

死磕自己,愉悦大家

专注于AI蛋白相关的论文解读&学术速运

AI4Protein
读书破万卷juǎn,专注于AI蛋白相关的学术搬运。
 最新文章