一天连轴转,看完门诊忙手术, 你还有时间忙课题吗?不用怕!阿星团队“生信人发文必备的好东西”,劲爆来袭!花小钱办大事!用一半预算实现生信文章精准复现!
丢丢丢~阿星驾到,科研路上妖魔鬼怪吃我一棒!悟空陪唐僧西天取经,阿星护送各位科研人发文章!要说最近手到擒来的生信发文秘籍,还得是疾病的风险基因挖掘!为什么这样说呢?一是,数据来源十分广泛,现有的公开数据库中涵盖的各种类型数据任你挑选!二是,分析方法层出不穷,如随机森林、支持向量机等机器学习方法、全基因组关联分析(GWAS)等传统的生信方法,甚至还有不断涌现的自研算法。那如何在这一领域做出一点水花呢?关键还是要注重选题、数据和方法!今天就和阿星一起学习下,公立常春藤德克萨斯大学的最新佳作是如何通过GTEx数据库挖掘风险基因,5张图斩获7+SCI!
1、紧跟当下热点,选题新颖:本研究中作者聚焦于GTEx公开数据库的挖掘,通过先进的算法识别复杂阿尔兹海默症(AD)复杂疾病风险基因,为AD的诊疗及药物研发拓宽了思路。
2、数据量大,数据类型丰富:本研究中作者从GTEx数据库中收集了838名样本的全基因组测序数据以及来自52个人体组织和2个细胞系的17382个RNA测序,多种类型的大量样本稳扎稳打,为构建模型奠定基础。
3、多种分析方法:本研究通过全转录组关联研究等生信分析筛选得到144个AD风险基因,随后采用蛋白相互作用网络和表型富集分析,进一步诠释了潜在的生物机制,实现了从研究发现到机制解释的闭环。
接下来,准备好和阿星一起进入迈入科研大门吧~ ps:数据挖掘焦头烂额?科研思路无从下手?别焦虑,不要内耗!快来联系阿星吧!全程保质服务,助力每一个科研人!
题目:基于参考脑和血液组织转录组数据的贝叶斯全基因组TWAS鉴定出141个阿尔茨海默病痴呆的风险基因
杂志:Alzheimer’s Research and Therapy
影响因子:IF = 7.9
发表时间:2024年6月
公众号回复“888”领取原文PDF,文献编号:240901
研究背景
阿尔茨海默病(AD)是一种复杂的神经退行性疾病,具体表现为进行性认知能力下降和记忆丧失,目前影响着约700万65岁及以上的美国人,是美国第七大死亡原因。尽管已进行了广泛的研究,但AD的潜在生物学机制仍然难以捉摸,并且仍然缺乏有效的治疗方法。全转录组关联研究(TWAS)是一种识别与复杂疾病相关的风险基因,但大多数现有的TWAS方法的存在固有的局限性,它们在基因表达预测模型中只考虑顺式eQTL,即近端遗传变异。本研究旨在通过贝叶斯全基因组TWAS (BGW-TWAS)方法,探究TWAS的顺式和反式eQTL,以期发现新的AD风险基因。
数据来源
作者从GTEx 数据库收集phs000424.v8.p2数据集用于研究,该数据集包含838名样本的全基因组测序数据以及来自52个人体组织和2个细胞系的17382个RNA测序(RNA-seq)样本。研究聚焦于前额叶皮质(n=158)、皮质(n=184)和全血(n=574)组织的转录组学数据。在数据处理过程中,作者排除了RNA序列少于1000万的样本,并在有重复的样本中选择了读取次数最多的样本。基因读取计数通过DESeq2归一化并进行对数变换,随后选择了在超过10%样本中表达值大于1的基因。在标准化后,对数据进行聚类分析,使用马氏距离排除异常值。
表1 研究数据
数据集 | 样本数量 | 样本类别 | ||
phs000424.v8.p2 | 838 | 前额叶皮质(n=158) | 皮质(n=184) | 全血(n=574) |
研究思路
作者首先从GTEx 数据库中收集了AD患者前额叶皮质、皮质和全血的全基因数据,通过BGW-TWAS方法,筛选出了141个关键AD风险基因,并分析了eQTL对显著TWAS风险基因的贡献。随后,使用聚合柯西关联检验(ACAT‑O)评估了遗传变异与表型之间的关联。接着,作者通过构建关键基因的蛋白-蛋白相互作用网络分析了风险基因的潜在生物学机制,利用表型富集分析揭示了风险基因与表型之间的关联。
图1 本研究流程图
主要结果
1. AD痴呆的BGW - TWAS结果
作者采用BGW-TWAS方法对前额叶皮层、皮层和全血三种组织的基因表达预测模型进行了训练,分别在这些组织中鉴定出85、82和76个显著的TWAS风险基因。显著基因在不同组织之间存在一定的重叠,其中13个基因在所有三种组织中均显著。除此之外,反式eQTL对显著TWAS风险基因的贡献较大,约31.8%的前额皮层基因、23.2%的皮层基因和27.6%的全血基因被≥50%的反式eQTL驱动。这表明trans-eQTL在三种组织中的显著TWAS风险基因中起到重要作用。
图2 前额叶皮层、皮层和全血三种组织的TWAS显著风险基因
2. 显著TWAS风险基因的eQTL
作者使用BGW-TWAS方法分析了eQTL对显著TWAS风险基因的贡献,并绘制了三个组织中TWAS风险基因的eQTL权重,图3所示。具体来说,A列的ACE基因显著性主要由顺式eQTL驱动,B列中的三个基因(SNORD22、AP001350.4和SLC3A2)显著性主要由反式eQTL驱动,分别在前额叶皮层、皮层和全血组织中。尽管这些基因的反式eQTL位于不同组织中,但多数仍然与测试基因位于同一染色体上。eQTL共定位与AD痴呆GWAS中的显著p值,显示顺式和反式eQTL可能共同驱动了基因的显著TWAS关联。
图3 用BGW-TWAS估计的典型TWAS风险基因的eQTL权重散点图
3. AD痴呆的ACAT‑O结果
作者通过ACAT-O方法结合三个组织的BGW-TWAS p值,计算了总计17449个基因的ACAT-O p值,鉴定出141个具有显著ACAT-O p值的基因。其中,27个基因位于19号染色体的APOE位点周围,这与之前的TWAS研究结果一致。进一步分析显示,在141个显著基因中,107个基因在仅使用顺式eQTL时仍具有显著性,剩余34个基因未被检测到,表明这些基因主要由反式eQTL驱动。表1列出了重要的TWAS风险基因,其中包括34个由反式eQTL驱动的基因和29个在前额叶皮层和皮层中重要的基因。这表明反式eQTL对显著TWAS基因的重要贡献。
图4 ACAT-O 方法确定TWAS p值的曼哈顿图
表2 TWAS风险基因
4. AD痴呆的TWAS风险基因的验证
作者对TWAS筛选的风险基因进行了进一步文献验证,除了GWAS目录中报道的35个已定位的风险基因外,106个AD痴呆的显著TWAS风险基因中34个基因的显著性主要来自trans- eQTL。。其他研究发现NDUFS2、PRSS36与AD风险相关,TWAS分析确定了WDR33和LRRC37A4P基因与AD相关。此外,作者使用GWAS数据分析了TWAS风险基因±1Mb区域内的cis-SNP,发现114个基因至少有一个SNP显著,但27个基因没有显著的GWAS cis-SNP。这些基因可能因反式eQTL或多个eQTL的共同作用无法通过标准GWAS识别。
5. 基于STRING数据库的蛋白相互作用网络分析
为了进一步解析141个TWAS风险基因的潜在生物学机制,作者基于STRING数据库构建了蛋白-蛋白相互作用网络。结果显示,多个基因簇与阿尔茨海默病(AD)相关,其中一个簇包含多个已知的AD风险基因,如BIN1、CASS4、MAPT等。这些基因通过APOC2、BIN1和MAPT等与风险基因连接,揭示了它们在AD中的重要作用。此外,一些未被GWAS报道的基因与已知的AD风险基因有关联,如WDR33与CELF1相连,WNT3与MAPT相连。
图5 141个TWAS显著风险基因的蛋白相互作用网络
6. 表型富集分析
作者通过表型富集分析,发现141个TWAS风险基因富集了14种与AD相关的表型,包括AD家族史、AD生物标志物、精神或行为障碍、全血细胞计数和白质微结构等。在显著富集的表型中,APOC2、BIN1、MAPT等基因与AD家族史和生物标志物密切相关,MAPT和WNT3等基因与白质微结构相关,MAPT、FCER1G等基因与免疫细胞计数相关。文献调研发现,这些表型与AD的相关性已在之前的研究中得到验证,如白质微结构损伤、脑出血后痴呆风险增加、免疫细胞计数升高等,进一步支持了慢性炎症和免疫反应在AD中的重要作用。
图6 141个TWAS显著风险基因表型富集分析
文章小结
本研究以公开数据库的多种类型数据入手,基于多种生物信息学方法,挖掘了144个AD潜在的风险基因,其中多数基因得到相关研究的验证,部分基因为理解疾病提供了生物学机制解释。公开数据库疾病基因挖掘,思路清晰,数据易得,推荐大家上手尝试!想要获得更多组学数据分析的思路、见解、指导吗?快来联系阿星吧!丰富的科研经历,扎实的专业知识,极高的工作效率,专业的团队随时待命!
阿星有话说
生信星持续为大家带来最新生信思路,更多创新性分析思路请点击下方链接。想复现这种思路或者定制更多创新性思路欢迎直接call阿星,生信星团队竭诚为您的科研助力!
往期精选
1 September 2024