读论文时如何辨别出“好东西”
本文是编者阅读Abhishaike Mahajan的博客文章《Five things to keep in mind while reading biology ML papers》,再结合自身的一些认识,提炼总结的阅读生物学领域AI论文的一些“注意事项”。
正文
1. Benchmark很少能反映真实情况
盲目百分百相信Benchmark测试(例如:MoleculeNet、FLIP)上的结果是不对的。请记住,这些Benchmark创建出来是为了对比不同模型的真实能力,纯粹刷榜与实际可靠的模型鱼龙混杂,让人眼花撩乱。这时候就需要火眼金睛学会甄别出“好东西”。编者曾看到这种模型,换个数据集微调GPT,作者实验说它的模型在蛋白结构预测、功能预测、骨架设计、序列设计等多项任务上SOTA,这种无敌选手大概率就是“坏东西”。
如果Benchmark的数据集偏小,多样性不够,分布太集中,则更不太能测试出模型的能力,因为在跨数据集时产生的分布偏移是巨大的。例如:AlphaFold3在RNA单体预测任务上仅有8个体系,此时验证的结果即使再好,应用时各个模型的能力也许差不多。
如果Benchmark的数据集很大,多样性也有保证(例如:ProteinGym),那么该Benchmark的结果相对来讲会更加可信。
大多数时候使用Benchmark是对标准化的一种妥协,而不是人们真正认同的东西!在一个数据集上有优秀的表现,在另一个数据集上不一定也表现优异。
那么,怎样才能构建出更好的Benchmark测试数据集?文章 [1] 给出了重要启示。需要更密切地关注实验分层+确保训练/测试分割包含不相似的分子(下图
右边)。但不幸的是,使用这类数据集,通常也意味模型在Benchmark上表现更差。
2. 论文会选择有利的结果
就像典型的机器学习一样,生物学深度学习论文通常会将他们提出的模型,与一个更简单、更传统的基线进行比较。也就是说,论文的基线经常被操纵,使用极其基础版本的基线模型,而不是效果更优的模型。比如:此前介绍的蛋白突变稳定性预测的文章,该论文图1就没有对比ESM-IF的基线。
更常见的例子,是在蛋白-分子对接领域。一篇综述论文发现[2],AI docking论文在与传统docking方法对比时,经常使用不公平的参数配置。 当AI和传统方法都使用正确的配置参数时,文章[2]发现AI方法的表现很微妙,即AI方法在口袋发现方面具有优势,但在docking方面比传统docking方法严格上来讲更差!
另一个文章发现[3],Alphafold3论文中给出的对接基线,可通过多构像进行改进。令人惊讶的是,这个改进的对接基线(Gnina+系综构象)最终在准确性上接近Alphafold3(下图
)。
总之就是,有些论文会精心挑选对自己有利的部分基线,取巧的选择不同的参数配置,来佯装自己模型的能力很强大。
3. 要学会甄别实用的模型
好奇心驱动的研究是好的,巨大的突破往往来自于好奇心。但由于AI社区相当重视新颖性,这可能会创造一个负反馈循环,其中实用性不强(但独特)的方法不会解决生物学中的实际问题,却占据了深度学习研究中的大部分。这反过来,导致更多的人开发这些实用性不强的AI模型。通俗点用一句话来讲,就是蹭热点发论文的人很多。
结合编者自身的体验,AI4Protein领域的AI模型,我会更加偏爱有实验结果、湿实验验证的论文,比如:RFdiffusion、ProteinMPNN这种。
甚至有些时候,即使论文做了湿实验的验证,也不太能说明AI模型有多强大,比如:ProGen。
某些论文没做湿实验也不能一竿子打死,说它不是“好东西”,比如:CarbonDesign。这个时候就需要一种叫“品味”的东西,大师Sergey在文章[4]证明了蛋白语言模型结合序列设计方法,设计出的蛋白在表达/溶解性上有更高的成功率;大师Sergey也在ColabDesign报告中[5]证明了结合MRF会提高序列设计恢复率,CarbonDesign[6]正是这样一种将Evoformer改成Inverseformer,再结合了蛋白语言模型、MRF的逆向序列设计算法(下图
),所以它就是个“好东西”。
4. 了解湿实验方法的局限性非常重要
生命科学中使用的几乎所有实验都是容易出错的,而且不是以一种整洁、干净的随机噪声方式。 更像是“对某些蛋白或分子有效,但对其他分子则完全失效”。 比如:克隆桥扩增测序、LC-MS等实验技术可能在某些情况下无法产生可信的结果,但许多论文中仍然会使用。论文作者通常不会使这些失败结果变得明显,而且这里也没有用假图欺骗你!大多数专家在阅读论文时,已经对这钟实验技术的局限性了如指掌,因为这通常是该领域的标准,但新手可能会被绊倒。
一个间接的例子是PAINS,或泛实验干扰化合物(pan-assay interference compounds)。这些是化学上的“坏演员”,它们经常导致实验的假阳性/假阴性,因为它们与使用的测量方法(如荧光)相互作用,产生结合干扰。
感谢阅读这篇文章,如果读者有其他看法欢迎留言。
本文完,2024/11/26于地球的某个角落。
参考文献
[1]. Building ADME benchmark datasets that drive impact,https://www.inductive.bio/blog/building-better-benchmarks-for-adme-optimization
[2].Do Deep Learning Models Really Outperform Traditional Approaches in Molecular Docking?
[3]. Approaching AlphaFold 3 docking accuracy in 100 lines of code,https://www.inductive.bio/blog/strong-baseline-for-alphafold-3-docking
[4]. Language models generalize beyond natural proteins
[5]. ColabDesign - Tutorial on using structure prediction methods for protein design,https://www.youtube.com/watch?v=2HmXwlKWMVs&t=514s
[6]. Accurate and robust protein sequence design with CarbonDesign
进群交流
进群请认真填问卷!
广告勿扰,广告勿扰。
往期合集
干货文章|线上报告|蛋白设计|综述|Binder|Co-design|Benchmark|AF3|David Baker|ESM|MaSIF|结构预测|语言模型|骨架生成|逆向折叠|抗体设计|多肽设计|酶设计|稳定性|药物设计
关注我们
死磕自己,愉悦大家
专注于AI蛋白相关的论文解读&学术速运