作为生信人的忠实读者们,大家一定对最近几年大热的孟德尔随机化有了一定了解。看着别人发文章,申课题,很多小伙伴也想趁着热度大干一场,然而,这一看就会,一做就废是怎么一回事呢?有的小伙伴准备好了各种工具,在网上找好了各种代码,自己的数据也收集完成,可是不知道怎么合理运用。或者直接照着大神的文章走流程,最后却发现怎么也得不出像样的结果,又无从寻找问题所在。
所以说,为了可以事半功倍,我们不仅要知其然,也需要知其所以然。一切问题的源头在于,我们没有真正了解这些大热生信分析,仅仅套用他人文章模式而无法灵活运用各类分析技术。今天小编就和大家浅谈一下生信入门的基石内容——基因组学。基因组学(Genomics)是研究生物体基因组(即其全部遗传物质)的结构、功能、进化、和编辑等,以及它们对生物体的影响的科学。这一概念最早由美国遗传学家Thomas H. Roderick于1986年提出。它是生物学的一个分支,随着分子生物学和遗传学的发展而兴起,特别是在人类基因组计划(Human Genome Project)成功完成人类基因组序列草图后,基因组学得到了极大的推动和发展。随着各种检测技术的兴起与发展,极大地推动了基因组学的研究与发展。
贯穿人类生命周期的基因组医学[1]
基因组学大致可以分为结构基因组学、功能基因组学、表观基因组学、宏基因组学、比较基因组学。结构基因组学:结构基因组学试图描述由给定基因组编码的每个蛋白质的三维结构。这种基于基因组的方法允许通过实验和建模相结合方法高通量进行蛋白结构鉴定。结构基因组学与传统结构预测的主要区别在于,结构基因组学试图确定基因组编码的每一种蛋白质的结构,而不是专注于一种特定的蛋白质。随着全基因组序列的公开,通过实验和建模相结合的方法可以更快完成蛋白质结构预测,特别是由于大量测序基因组和以前解析蛋白质结构的公开,使得科学家可以根据已有同源物的结构对蛋白质结构进行建模。结构基因组学涉及到大量的结构鉴定方法,包括利用基因组序列的试验方法、基于已知同源蛋白质的序列或结构同源性基础上的建模方法、或基于没有任何已知结构同源性蛋白质的化学和物理特性的建模方法。通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。
功能基因组学:功能基因组学试图从基因、RNA转录本和蛋白质产品三个水平上回答有关DNA功能的问题。它试图利用基因组项目(如基因组测序项目)产生的大量数据来描述基因(和蛋白质)的功能和相互作用。功能基因组学侧重于基因转录、翻译和蛋白质-蛋白质相互作用的动态变化。功能基因组学研究的一个关键特征是它们对这些问题的全基因组方法,通常涉及高通量方法。基因组学的一个主要分支仍然关注于对各种生物体基因组的测序,但全基因组的知识为功能基因组学关注各种条件下基因表达的模式创造了可能。涉及到的最重要的工具是芯片技术和生物信息学。
表观基因组学:表观基因组学是研究表观基因组,即生物体中所有表观修饰的遗传物质的学科。表观遗传修饰是对细胞DNA或组蛋白的可逆修饰,在不改变DNA序列的情况下影响基因表达。两个最具特征的表观遗传修饰是DNA甲基化和组蛋白修饰。表观遗传修饰在基因表达和调控中起着重要作用,并参与许多细胞过程,如分化/发育和肿瘤发生。
宏基因组学:
是研究直接从环境样品中提取全部微生物的遗传信息的学科。宏基因组学也称为环境基因组学、生态基因组学或群落基因组学。早期的环境基因测序克隆了特定的基因(通常是16S rRNA基因),从而获得自然群体的多样性。宏基因组使用“散弹枪”测序或大规模平行焦磷酸测序,可以无偏好地获得样本群体中所有微生物成员的基因信息。由于宏基因组学能够揭示此前被隐藏的微生物多样性,它为观察微生物世界提供了一个强有力的工具,其结果有可能彻底改变对整个生命世界的认知。
利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。如单核苷酸多态性(single-nucleotide polymorphism,SNP),拷贝数多态性(copy number polymorphism,CNP)。基因组结构:研究基因组的组成,包括DNA序列、基因的位置和数量、染色体的结构等。基因组功能:探索基因的功能,包括它们如何编码蛋白质、调控生物体的生理过程以及在疾病中的作用。基因组比较:比较不同物种的基因组,以了解它们的进化关系和生物学差异。
基因组变异:研究基因组中的变异,如单核苷酸多态性(SNPs)、插入和缺失(InDels)、拷贝数变异(CNVs)等,以及这些变异如何影响个体的表型和疾病风险。基因组技术:开发和应用新的基因组学技术,如高通量测序(Next-Generation Sequencing, NGS)、基因编辑(如CRISPR-Cas9技术)等,以更高效地分析和操作基因组。基因组数据的分析和解释:利用生物信息学工具和方法分析基因组数据,挖掘有价值的生物学信息。基因组学的应用非常广泛,它不仅对基础生物学研究至关重要,还在医学、农业、环境科学、法医学等领域发挥着重要作用。如最近英格兰基因组研究公司与英格兰国家医疗服务系统联合发布的关于癌症基因组计划的研究,为肿瘤精准治疗提供新启示[4]。联合其他组学进行多方面综合分析仍是目前大热的方向之一[5]。联合孟德尔随机化分析的更是现在各路高分文章的取向[6]。看到这里伙伴们可能有点焦虑,这是要花费几个月甚至整年时间,从理论基础一点点学习吗?当然不是!生信分析作为一种工具,就像所有语言一样,重要在于实践操作,会使用远比透彻学习理论更为关键。因此,今天给大家带来一个小小的课程,带你零基础入门生信,三天掌握基因组学,带大家认识基因组及基因组数据库,学习测序基础及数据分析、挖掘,还有孟德尔随机化的相关知识等着你一起学习。有兴趣的小伙伴不要错过这个精彩课程哦,绝对物超所值! [1] Shendure J, Findlay GM, Snyder MW. Genomic Medicine–Progress, Pitfalls, and Promise. Cell 2019;177:45-57.[2] Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021).[3] Yang, Y., Sun, P., Lv, L. et al. Prickly waterlily and rigid hornwort genomes shed light on early angiosperm evolution. Nat. Plants 6, 215–222 (2020).[4] Sosinsky A, Ambrose J, Cross W, Turnbull C, Henderson S, Jones L et al. Insights for precision oncology from the integration of genomic and clinical data of 13,880 tumors from the 100,000 Genomes Cancer Programme. Nature Medicine 2024;30:279-89. [5] Su G-H, Xiao Y, You C, Zheng R-C, Zhao S, Sun S-Y et al. Radiogenomic-based multiomic analysis reveals imaging intratumor heterogeneity phenotypes and therapeutic targets. Science Advances 2023;9:eadf0837.[6] Xu S, Li X, Zhang S, Qi C, Zhang Z, Ma R, Xiang L, Chen L, Zhu Y, Tang C, Bourgonje AR, Li M, He Y, Zeng Z, Hu S, Feng R, Chen M. Oxidative stress gene expression, DNA methylation, and gut microbiota interaction trigger Crohn's disease: a multi-omics Mendelian randomization study. BMC Med. 2023 May 11;21(1):179.