教程 | 教你怎么预测基因突变对3D蛋白结构的影响

科技健康 2024-10-10 07:03 上海

最近上海儿童医学中心见刊了一篇关于生长分化因子6基因（Growth and differentiation factor 6, Gdf6）p.Y443N突变小鼠模型，再现了多发性骨性连接综合征4型（SYNS4）患者的表型特征。（Defective joint development and maintenance in GDF6-related multiple synostoses syndrome）。

以该突变为例，预测突变对于蛋白结构的可能影响。

首先可以到Uniprot数据库（https://www.uniprot.org）查看关于该蛋白的一些基本信息。从Uniprot直接搜索GDF6能找到很多不同物种的相关蛋白条目，由于文章中所有的是小鼠模型。我们选择第三个小鼠物种的信息。

Uniprot是一个强大的蛋白质数据库，这个里面记录的蛋白质的基本信息，包括功能、通路、结构、蛋白域（domains）等信息。

点击Sequence目录或者直接滑倒指定位置能看到GDF6的氨基酸序列信息，可以看到GDF6只有一个isoform。我们可以直接从这里获得野生型序列，一般在选择氨基酸序列的时候是要考虑所有的转录本，有些基因有大量的不同转录本，导致出现不同的氨基酸序列，而这里只有一个，就直接这个序列就行。红线所标注的位置即突变位置，突变型为N，这样我们就获得了野生型和突变型的氨基酸序列。这是一个从酪氨酸到天冬酰胺的突变。

再回到结构章节，可以看到GDF6并没有通过实验解析的蛋白质结构，也可以去PDB数据库检索（https://www.rcsb.org/），但是有AlphaFold2模型预测的结构。点击右边下载符号就可下载模型。

有了野生型的预测模型，这里采用Swiss model（https://swissmodel.expasy.org/）和alphafold2分别对突变型的序列进行建模。Swiss model是在线版的工具，如下图所示，选择“User Template”，然后粘贴或者上传突变后的序列，再上传我们刚刚下载的序列就可以点击“Build Model”进行序列预测。因为预测需要一定的时间，这里可以选择性的添加项目标题和邮箱，这样程序跑完了就能发送通知邮件到邮箱。

下面为预测好的结果，点击1处可以下载模型结果，直接下载模型报告，里面也包含了模型文件。2处是模型的预测打分，单位是0-1，越接近于1说明越自信，详细可以看https://swissmodel.expasy.org/qmean/help。

关于AlphaFold2的本地配置比较麻烦，对设备也有一定的需求，这里不做过多的介绍，不过也可以采用colab在线版（https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb，需要科学上网，并登陆谷歌账户），值得注意的是，1.不同的版本（本地版、在线版等）结果可能是存在差异的，此外在线版仅针对短序列可进行建模，2.关于alphafold2对错义突变预测的效果，这里有一篇文章进行了论证，可以参考这篇文章（https://www.nature.com/articles/s41594-021-00714-2）。在1处输入序列，2处点击选择全部运行即可，同样需要一定的等待时间。

这边大概花了20分钟，跑完之后会直接下载结果文件，默认设置下会产生5个模型，按照排序选择第一个模型即可。

这样就获得了野生型和突变型的蛋白质预测结构，对于这些结构有很多的可视化软件，这边采用pymol（https://pymol.org/）进行可视化，pymol下载安装都很方便，主要是需要授权，学生可以通过教育授权申请获得license，当然也有基于python2的免费开源版，可以在网上方便的搜到安装流程。

Pymol有多个工作区域，上方是菜单窗口，包含左侧记录操作窗口，命令行窗口，右侧是一些快捷操作集成窗口，下方是显示窗口，左侧最大的是可视化窗口，下方也有一个命令行窗口，右侧是对象列表窗口和模式窗口。

这里可以直接将我们的PDB格式的蛋白结构文件直接拖入pymol软件。也可以通过菜单栏的File -> open，然后定位到指定位置，打开文件。右侧1处是我们打开的野生型蛋白结构的对象，对象后面有5个按钮，A表示action，可以对这个结构进行一些操作，S表示show，主要是控制蛋白可视化展示形式的，H表示hide，与show相对，可以对结构进行隐藏，L表示label，可以对蛋白添加特定标签，C表示color，可以调节颜色，对蛋白的简单可视化基本通过这些就能完成。2处的S代表sequence，点击可以显示序列栏，方便快速定位到目标氨基酸，也可以通过菜单栏的Display -> sequence触发。

这里我们先对结构进行一些基本的操作，我们更改一下蛋白的颜色，背景，并将我们关注的443号氨基酸展示出来。选择对象所在的C选择rainbow能得到好看的彩虹色，这也是文献中常用的颜色只标注方式之一，这里由于要比较不同蛋白结构的区别，我们选择别的纯色。

在序列中点击443号Y即可在选择该氨基酸，右侧对象出现(sele)，代表一个被选中的临时对象，可以点击对象后侧A按钮先单独拷贝出来，方便下一步处理。拷贝以后出现名为obj01的新对象，可以点击A对其进行名称修改，修改命名窗口在左上角，这里我们修改为443Y。

接下来先将野生型完整的蛋白对象隐藏，再在443Y后的S按钮选择sticks即可展示该氨基酸的棍状结构。在左侧显示窗口可以通过鼠标左键旋转，右键缩放到合适位置，展示该氨基酸。选择对象后侧C，修改为绿色。

接下来我们看看这个氨基酸附近氢键的链接情况，通过在显示窗口选中该氨基酸，展示周围5埃的残基，一般氢键的会在3埃内形成，我们这里将范围舍得的更大一些，也可以观察别的一些较近的结构。

这里会显示周围残基的点，因为这些残基基本都在被隐藏的野生型蛋白上，所以我们看不见形状，同理对这些残基行程的(sele)进行拷贝，重命名，这里我们命名为res-wt。拷贝完了会发现在窗口中有显示，这是因为拷贝完的对象不是隐藏的。

此外可以看到残基序列里有443Y本身，这是因为我们操作的443Y从野生型里复制出来了，所以原本野生型的443Y也会被考虑在内。我们可以直接在序列处选中，然后右键删除，删除以后形状也发生了改变，这是因为现在是默认的cartoon展示形式，不过没关系，我们后期这一块主要用sticks展示，不会有影响。针对周围残基，我们首先按S显示sticks，再按H隐藏cartoon，当然也可以先H隐藏everything再用S展示sticks。

然后我们在443Y对象上点击A -> find -> polar contacts -> to any atoms即可展示与周围连击的氢键，值得注意的是，由于我们将残基复制出来了，所以这里会有和残基对象以及原始蛋白质对象的重叠的氢键链接，可以在操作前先删除原来的野生型蛋白质，再在操作后重新打开。

操作后可以看到多了三根虚线黄线的氢键，右侧也多了氢键对象。针对对象，点击S，选择labels可以显示键长。菜单栏的Setting->Label可以简单的对标签的字号、字体、颜色等进行修改。

这里我们继续对残基的颜色进行修改，我们选择rainbow，对于背景，我们选择Display -> Background -> White修改为白色，通过对野生型蛋白S按钮选择surface显示蛋白表面，并通过Setting -> Transparency
-> Surface进行透明度修改，最终大概的结果如下。

对于swiss-model和alphafold2对突变型的预测，我们参照上面的操作，大概可以得到如下结果。上图是swiss-model的结果，下图是alphafold2的结果，从结果上来看，443Y到443N的突变都导致了443与295E的氢键的链接断裂，可能导致蛋白质局部结构的不稳定从而影响蛋白质的功能。

从整体的角度来看，swiss-model和野生型很一致，绿色为野生型，蓝色为突变型，但是有意思的是443Y所处的位置与临近的α螺旋区域很近并形成氢键，突变型直接导致该氢键的断裂。更有意思的是，从局部看alphafold2和swiss-model导致的结果很相似，但是整体上看，alphafold2的预测建模和野生型差异很大。绿色为野生型，紫色为突变型。

除了观察结构、氢键等，也可以计算折叠能来预测突变后的稳定性，通过LigPlot等，直观的从2D的角度看到443Y突变前后的与周围残基的作用改变（红圈为一致的部分，左上角为WT，右上角为alphafold2，左下角为swiss-model）。

虽然以上为蛋白结构预测的详细教程，很多朋友可能仍然不会预测，没关系，可以联系13761757010，让本文作者亲自帮你做哦

基因检测与解读

介绍基因检测新进展，探讨基因数据分析流程与方法，分享罕见病故事，科普基因知识，阴性报告重分析

最新文章

国考报名 | 出生缺陷防控咨询师，2025年3月23日考试，报名开启！

Nature Genetics | 深度 CRISPR 突变分析表征了 TP53 突变的功能多样性

AJHG | DDX53 中的遗传变异与 Xp22.11 位点相关的自闭症谱系障碍相关

预见，从遇见开始｜2025“遇见·预见”开年演讲与您相约和君小镇

Minigene——“沉睡的突变”有救了！

基于大规模WES评估中国人群腺苷脱氨酶2（ADA2）缺乏症的携带频率和发病率

RORA 神经发育障碍：发育障碍、小脑异常和肌阵挛性癫痫发作的独特三联征

NEJM | 顶级医学期刊介绍一例30个月男孩反复发热发病原因

培训通知｜生殖健康咨询（遗传咨询方向）专项能力线上培训及考试通知

创新引领，聚焦前沿——2024年广东省医学教育协会生殖与遗传管理专委会年会在广州举行

他山之石，如何在神经系统疾病中提高VUS解读

BRCA1 7号外显子部分缺失是个突变热点但是NGS和MLPA都漏了

培训通知｜生殖健康咨询（遗传咨询方向）专项能力线上培训及考试通知

遗传学研究进展会员订阅

第一期遗传学研究进展

精英训练营 | 肌无力相关临床遗传咨询实践培训

Nature Genetics | 第一届未确诊疾病黑客马拉松拓展罕见病诊断的边界

最新日程丨2025“遇见·预见”基因组医学与生命健康开年演讲

安捷伦宣布SureSelect Max文库制备方案上市，重新定义NGS文库质量高度！

WDR45变异是女性婴儿早期临床可变智力障碍综合征的主要原因

GIM | 产前cfDNA筛查时哪些CNV应该报告

究竟哪些基因应该纳入携带者筛查，也许可以从gnomAD v.4中找到答案

明日直播：利用Oxford Nanopore纳米孔测序全面分析癌症基因组

Nature大地震 | 人工智能与基因打破常规！基因检测创历史新高！

NEJM | 澳大利亚全国范围内基于夫妻的遗传携带者筛查

ClinVar数据库更新至2024年11月28日

病例分享-小心限制性胎盘嵌合导致的假阳性陷阱

国考报名 | 出生缺陷防控咨询师，12月22日考试，报名开启啦！

结构变异和非编码变异提高了罕见病临床全基因组测序的诊断率

进展 | 利用深度突变扫描技术对BRCA1变异进行准确ACMG分类

【小彩虹论坛】第182期-脑性瘫痪的临床遗传学研究

ClinGen是个什么组织？为何人人称赞

不可思议？OGM居然可以分析动态突变

顶级遗传学杂志呼吁大家发表文章时变异的命名不要太随便

风口中的综合性携带者筛查培训班建议你不要错过

到底有多少个基因与临床单基因病相关？推荐你查询MorbidGenes数据库

湖北省遗传学会基因健康专委会2024年学术年会在武汉召开

可扩展的方法用于生成、验证和整合高通量功能测定的数据以改进临床变异分类

生殖与遗传前沿论坛暨综合性携带者筛查临床应用培训班招生啦！

诚聘高级遗传咨询师（上海恩元生物科技有限公司）

超快速基因组测序在患有线粒体疾病的危重儿中的应用

软件预测变异影响剪接该如何做功能验证？

全基因组测序提高了诊断率：一项前瞻性单中心1000名遗传性眼病患者研究

国考报名 | 出生缺陷防控咨询师，12月22日考试，报名开启啦！

精品课程 | 安捷伦2100 软件功能深度解析

JMG | 综述：变异重新分类及临床意义

SLC26A4基因的外显子缺失和深内含子变异有助于未解决的大前庭导水管综合征患者的遗传诊断

国考报名 | 出生缺陷防控咨询师，12月22日考试，报名开启啦！

J. Transl. Med.| 临床外显子组测序在遗传病拷贝数变异检测中具有较高灵敏度和可靠性

长读长测序在ADPKD中识别出PKD1基因转换而非WES和MLPA提示的假阳性外显子缺失

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉