最近上海儿童医学中心见刊了一篇关于生长分化因子6基因(Growth and
differentiation factor 6, Gdf6)p.Y443N突变小鼠模型,再现了多发性骨性连接综合征4型(SYNS4)患者的表型特征。(Defective joint
development and maintenance in GDF6-related multiple synostoses syndrome)。
首先可以到Uniprot数据库(https://www.uniprot.org)查看关于该蛋白的一些基本信息。从Uniprot直接搜索GDF6能找到很多不同物种的相关蛋白条目,由于文章中所有的是小鼠模型。我们选择第三个小鼠物种的信息。Uniprot是一个强大的蛋白质数据库,这个里面记录的蛋白质的基本信息,包括功能、通路、结构、蛋白域(domains)等信息。点击Sequence目录或者直接滑倒指定位置能看到GDF6的氨基酸序列信息,可以看到GDF6只有一个isoform。我们可以直接从这里获得野生型序列,一般在选择氨基酸序列的时候是要考虑所有的转录本,有些基因有大量的不同转录本,导致出现不同的氨基酸序列,而这里只有一个,就直接这个序列就行。红线所标注的位置即突变位置,突变型为N,这样我们就获得了野生型和突变型的氨基酸序列。这是一个从酪氨酸到天冬酰胺的突变。再回到结构章节,可以看到GDF6并没有通过实验解析的蛋白质结构,也可以去PDB数据库检索(https://www.rcsb.org/),但是有AlphaFold2模型预测的结构。点击右边下载符号就可下载模型。有了野生型的预测模型,这里采用Swiss model(https://swissmodel.expasy.org/)和alphafold2分别对突变型的序列进行建模。Swiss model是在线版的工具,如下图所示,选择“User Template”,然后粘贴或者上传突变后的序列,再上传我们刚刚下载的序列就可以点击“Build
Model”进行序列预测。因为预测需要一定的时间,这里可以选择性的添加项目标题和邮箱,这样程序跑完了就能发送通知邮件到邮箱。下面为预测好的结果,点击1处可以下载模型结果,直接下载模型报告,里面也包含了模型文件。2处是模型的预测打分,单位是0-1,越接近于1说明越自信,详细可以看https://swissmodel.expasy.org/qmean/help。关于AlphaFold2的本地配置比较麻烦,对设备也有一定的需求,这里不做过多的介绍,不过也可以采用colab在线版(https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb,需要科学上网,并登陆谷歌账户),值得注意的是,1.不同的版本(本地版、在线版等)结果可能是存在差异的,此外在线版仅针对短序列可进行建模,2.关于alphafold2对错义突变预测的效果,这里有一篇文章进行了论证,可以参考这篇文章(https://www.nature.com/articles/s41594-021-00714-2)。在1处输入序列,2处点击选择全部运行即可,同样需要一定的等待时间。
这边大概花了20分钟,跑完之后会直接下载结果文件,默认设置下会产生5个模型,按照排序选择第一个模型即可。这样就获得了野生型和突变型的蛋白质预测结构,对于这些结构有很多的可视化软件,这边采用pymol(https://pymol.org/)进行可视化,pymol下载安装都很方便,主要是需要授权,学生可以通过教育授权申请获得license,当然也有基于python2的免费开源版,可以在网上方便的搜到安装流程。
Pymol有多个工作区域,上方是菜单窗口,包含左侧记录操作窗口,命令行窗口,右侧是一些快捷操作集成窗口,下方是显示窗口,左侧最大的是可视化窗口,下方也有一个命令行窗口,右侧是对象列表窗口和模式窗口。这里可以直接将我们的PDB格式的蛋白结构文件直接拖入pymol软件。也可以通过菜单栏的File -> open,然后定位到指定位置,打开文件。右侧1处是我们打开的野生型蛋白结构的对象,对象后面有5个按钮,A表示action,可以对这个结构进行一些操作,S表示show,主要是控制蛋白可视化展示形式的,H表示hide,与show相对,可以对结构进行隐藏,L表示label,可以对蛋白添加特定标签,C表示color,可以调节颜色,对蛋白的简单可视化基本通过这些就能完成。2处的S代表sequence,点击可以显示序列栏,方便快速定位到目标氨基酸,也可以通过菜单栏的Display -> sequence触发。这里我们先对结构进行一些基本的操作,我们更改一下蛋白的颜色,背景,并将我们关注的443号氨基酸展示出来。选择对象所在的C选择rainbow能得到好看的彩虹色,这也是文献中常用的颜色只标注方式之一,这里由于要比较不同蛋白结构的区别,我们选择别的纯色。在序列中点击443号Y即可在选择该氨基酸,右侧对象出现(sele),代表一个被选中的临时对象,可以点击对象后侧A按钮先单独拷贝出来,方便下一步处理。拷贝以后出现名为obj01的新对象,可以点击A对其进行名称修改,修改命名窗口在左上角,这里我们修改为443Y。
接下来先将野生型完整的蛋白对象隐藏,再在443Y后的S按钮选择sticks即可展示该氨基酸的棍状结构。在左侧显示窗口可以通过鼠标左键旋转,右键缩放到合适位置,展示该氨基酸。选择对象后侧C,修改为绿色。接下来我们看看这个氨基酸附近氢键的链接情况,通过在显示窗口选中该氨基酸,展示周围5埃的残基,一般氢键的会在3埃内形成,我们这里将范围舍得的更大一些,也可以观察别的一些较近的结构。这里会显示周围残基的点,因为这些残基基本都在被隐藏的野生型蛋白上,所以我们看不见形状,同理对这些残基行程的(sele)进行拷贝,重命名,这里我们命名为res-wt。拷贝完了会发现在窗口中有显示,这是因为拷贝完的对象不是隐藏的。
此外可以看到残基序列里有443Y本身,这是因为我们操作的443Y从野生型里复制出来了,所以原本野生型的443Y也会被考虑在内。我们可以直接在序列处选中,然后右键删除,删除以后形状也发生了改变,这是因为现在是默认的cartoon展示形式,不过没关系,我们后期这一块主要用sticks展示,不会有影响。针对周围残基,我们首先按S显示sticks,再按H隐藏cartoon,当然也可以先H隐藏everything再用S展示sticks。然后我们在443Y对象上点击A -> find -> polar
contacts -> to any atoms即可展示与周围连击的氢键,值得注意的是,由于我们将残基复制出来了,所以这里会有和残基对象以及原始蛋白质对象的重叠的氢键链接,可以在操作前先删除原来的野生型蛋白质,再在操作后重新打开。操作后可以看到多了三根虚线黄线的氢键,右侧也多了氢键对象。针对对象,点击S,选择labels可以显示键长。菜单栏的Setting->Label可以简单的对标签的字号、字体、颜色等进行修改。这里我们继续对残基的颜色进行修改,我们选择rainbow,对于背景,我们选择Display -> Background -> White修改为白色,通过对野生型蛋白S按钮选择surface显示蛋白表面,并通过Setting -> Transparency
-> Surface进行透明度修改,最终大概的结果如下。对于swiss-model和alphafold2对突变型的预测,我们参照上面的操作,大概可以得到如下结果。上图是swiss-model的结果,下图是alphafold2的结果,从结果上来看,443Y到443N的突变都导致了443与295E的氢键的链接断裂,可能导致蛋白质局部结构的不稳定从而影响蛋白质的功能。从整体的角度来看,swiss-model和野生型很一致,绿色为野生型,蓝色为突变型,但是有意思的是443Y所处的位置与临近的α螺旋区域很近并形成氢键,突变型直接导致该氢键的断裂。更有意思的是,从局部看alphafold2和swiss-model导致的结果很相似,但是整体上看,alphafold2的预测建模和野生型差异很大。绿色为野生型,紫色为突变型。除了观察结构、氢键等,也可以计算折叠能来预测突变后的稳定性,通过LigPlot等,直观的从2D的角度看到443Y突变前后的与周围残基的作用改变(红圈为一致的部分,左上角为WT,右上角为alphafold2,左下角为swiss-model)。虽然以上为蛋白结构预测的详细教程,很多朋友可能仍然不会预测,没关系,可以联系13761757010,让本文作者亲自帮你做哦