近日,PDBbind 2021版蛋白-配体复合物精选集已在PDBbind+网络平台(http://www.pdbbind-plus.org.cn/)上公布。在药物设计领域中广受欢迎的PDBbind 数据集提供一个很有价值的选项,即蛋白-配体复合物精选集(refined set)。该数据集通过检查PDBbind中收录的所有蛋白-配体复合物,去除存在各种三维结构中的问题、亲合性数据的问题或其他问题的复合物,从而筛选出各方面质量较高的复合物作为“精选集”。事实上,只有约四分之一的蛋白-配体复合物被纳入精选集,体现了该数据集的高标准质量。精选集为分子对接、亲合性打分预测等研究等提供了更坚实的数据基础,被众多国内外研究者采用。PDBbind数据库从2021版开始提供两种精选集:①“标准精选集”,当前包含5142个复合物;②“拓展精选集”,包含相同的5142个复合物以及1221个额外的复合物。额外的1221个复合物满足与标准精选集相同的各项质量标准,唯一不同是它们是由含金属的蛋白形成的复合物。在以往版本的精选集也包括含金属蛋白形成的复合物,但并未加以区分。通过本次更新,标准精选集和拓展精选集可以更灵活地满足不同用户的需求。另外值得一提的是:PDBbind 2021版通过引入全新的复合物结构处理流程,解决了过去历代版本中积累的小问题。因此,新版精选集不仅在规模上有所扩大,其提供的复合物结构在质量方面也获得了显著提升。
图-1:(A)PDBbind
2021版总计包含27000多个已知亲合性实验数据的复合物,从中挑选出6363个蛋白-配体复合物作为精选集;(B)含金属蛋白的复合物示例 (PDB编号6WBQ),小分子配体Tubastatin A与含锌蛋白HDAC10相结合。
图-2:PDBbind+网站的下载页面:其中更新了PDBbind 2021版的索引数据包,并新增了蛋白-配体复合物精选集数据包供下载。
PDBbind+网站上所有的搜索功能已增加了搜索范围为2021版精选集这个选项。订购PDBbind 2021版的用户可以在PDBbind+网站上的DOWNLOAD页面下载“拓展精选集”数据包(图2)。另外,用户需要下载更新后的索引文件包,其中包含标准精选集和拓展精选集的索引文件。请注意:由于“精选集”实际上是PDBbind数据集的一个子集,如果用户已经下载过完整的PDBbind数据包,就无需再下载这个特殊的“拓展精选集”数据包。用户只需根据更新后的索引文件自行挑选“拓展精选集”所包含的复合物结构文件即可。