在生物体内,细胞类型决定了不同基因的激活与抑制。然而,这一复杂的基因调控机制过去只能理解,难以人为设计。
然而,近期发表于《自然》的研究展示了一个突破性方法:Gosai等人利用人工智能(AI)模型设计出了合成的DNA调控序列,使其能够在特定细胞类型中精确驱动基因表达。这一研究成果不仅推动了对基因表达调控的理解,更为细胞与基因治疗开辟了新的可能。
解码基因调控的“语言”
在基因组中,不同细胞类型对基因调控的需求不同,这使得每类细胞都有其特有的基因“语言”。Gosai等人通过AI模型解码了这种“语言”,并使用实验基因组学技术来训练AI模型,使其能够生成具有细胞类型特异性的合成DNA序列。借助这一技术,科学家可以“编写”能够激活特定细胞类型基因表达的调控元素,这为靶向基因治疗带来了全新的可能性。
实验基因组学与AI的深度结合
过去十多年,分子生物学领域发展出了大规模并行报告基因检测(MPRAs),能够检测数十万基因调控元件的活性。通过MPRAs,我们可以判断哪些调控元件在特定细胞类型中活跃,确定这些细胞的特异性调控特征。在这一基础上,AI技术的发展也使得我们能够从基因组数据中学习到细胞类型特异性调控元素的特征,例如转录因子结合位点的组合方式,从而区分不同细胞类型。与图像识别类似,AI模型中的卷积神经网络(CNNs)可以像识别图像中的猫与狗一样,识别出基因组中控制基因表达的关键特征。
在此次研究中,Gosai团队整合了MPRAs的实验数据与AI模型,通过MPRAs提供的数据训练AI模型,使之生成具有细胞特异性的合成DNA序列。通过这种方法,科学家可以设计出比天然调控元件更具特异性的合成调控序列,并通过体内实验来验证其在特定细胞类型中的基因表达效果。
创新的合成序列为精准基因治疗带来曙光
这种细胞特异性合成序列的设计技术在基因治疗领域具有极大潜力。当前基因治疗的一个主要挑战在于如何避免非靶细胞的副作用。例如,替换特定细胞中的蛋白质可以实现疾病治疗,但同样的蛋白质若被送达错误的细胞类型可能引发毒性反应。合成序列则可以有效降低这种风险,从而提高基因治疗的安全性和有效性。
跨越实验室与临床应用的鸿沟
尽管这一技术具有广阔前景,但距离临床应用仍有一段路程。当前的MPRAs技术主要在果蝇和体外培养的细胞中实现,其实验数据能否完全适用于人类细胞仍然存疑。未来,生成式AI技术(如类似于ChatGPT的技术)有望使AI模型更加通用,适用于跨越不同细胞类型和物种的调控序列设计。此外,空间转录组学技术的发展也将帮助科学家在组织环境中检测这些合成调控元件的特异性,为临床应用铺平道路。
展望未来:AI与生物实验技术的深度融合
这一研究展示了生物学研究从简单描述转向精确工程的趋势。未来的生物学家、计算生物学家与生物医学工程师将需掌握跨学科合作的能力,甚至整合这些复杂的领域,以推动生物学的新发展。AI技术的不断进步和实验基因组学的深化应用,将为我们揭开基因组调控的更多奥秘,并最终使精确的细胞与基因治疗成为现实。