文库构建与基因簇靶向筛选驱动的微生物天然产物高效发现

2024-08-09 22:00   湖北  

摘 要

微生物天然产物作为小分子药物的主要来源,已被广泛应用于医药与农业等领域。随着全球抗生素耐药性与其他公共健康问题的加剧,新结构、新靶点微生物天然产物发现迫在眉睫。大规模(宏)基因组测序揭示微生物蕴含了巨大的生物合成潜力,相继催生了多种不同类型的天然产物挖掘策略。然而,目前仍然缺乏将天然产物合成基因簇与编码产物快速关联的高效方案。近年来,(宏)基因组文库构建在获取批量天然产物合成基因簇方面展现出明显优势,结合高效的基因簇靶向筛选方法,显著加速了新结构天然产物系统发现。本文综述了三类基于(宏)基因组文库构建与靶向筛选驱动天然产物创新发现的策略,主要从克隆载体类型、文库构建方式、基因簇靶向筛选方法等角度进行了阐述,并对Cosmid/Fosmid文库、BAC/PAC文库、FAC/YAC文库等不同文库类型的优缺点及应用范围进行了对比,最后对这些策略的发展前景进行了展望。未来,基于文库构建与基因簇靶向筛选策略将极大驱动不同生境微生物来源的活性天然产物挖掘,预期大量新靶点、新结构天然产物将不断涌现。



全 文

随着全球抗生素耐药性与其他公共健康问题的加剧,新型小分子药物研发迫在眉睫。微生物产生大量具有生物活性的天然产物(natural product,NP),是小分子药物的主要来源,在医药、农业与畜牧业等领域发挥重要作用。鉴于这些天然产物合成相关的基因在微生物基因组中成簇存在,因此对微生物天然产物生物合成基因簇(biosynthetic gene cluster,BGC)的研究是新型天然产物挖掘的重要途径。伴随着合成生物学与生物信息学快速发展,大规模微生物(宏)基因组测序揭示了大量新型的功能未知的生物合成基因簇,包括新颖的非核糖体肽(non-ribosomal peptide,NRP)与聚酮(polyketide,PK)等类型合成途径,这为天然产物挖掘提供了一笔宝贵资源。然而,其中90%以上的天然产物合成基因簇在实验室条件下处于不表达或低表达状态,据统计,目前仅有约3%的微生物来源的天然产物被鉴定,新结构、新靶点化合物严重匮乏。因此,面对海量的天然产物资源库(功能未知的基因簇),如何从中高效挖掘新结构、新靶点的化合物仍然是目前研究的重点与难点。

微生物天然产物合成基因簇克隆与异源表达是目前新化合物挖掘的主流策略之一。一系列不同类型的基因簇直接克隆方法得以建立,包括Gibson组装、转化偶联重组(transformation-associated recombination,TAR)、Red/ET克隆、CRISPR/Cas系统辅助的大片段DNA捕获技术以及位点特异性重组(site-specific recombination, SSR)介导的克隆等。然而,常规的基因簇直接克隆技术较难实现大尺度基因簇(50~150 kb)克隆,其克隆规模也比较有限。(宏)基因组文库构建作为一种能够克隆大片段DNA的方法被广泛应用于生物合成基因簇研究。目前,已经建立的(宏)基因组文库方法类型多样,按照构建载体类型主要包括Cosmid、Fosmid、细菌人工染色体(bacteria artificial chromosome,BAC)、P1人工染色体(P1-derived artificial chromosome, PAC)、真菌人工染色体(fungal artificial chromosome,FAC)与酵母人工染色体(yeast artificial chromosome,YAC)文库等。由于这些载体系统可有效接受外源片段,在克隆超过几百甚至几十万碱基对的大尺度基因簇方面相比直接克隆方法具有明显优势。

然而,由于文库构建只是随机克隆目标基因簇,科学家们逐渐开发了多种目标基因簇靶向筛选的策略。最初,人们借助表型筛选、生物活性检测、原位杂交、HPLC化合物表达筛选等传统筛选方法实现相关基因(簇)的挖掘。随着生物信息学快速发展,研究人员逐渐开发出基于全基因组测序技术的天然产物BGC序列引导的筛选与生物信息学功能预测相结合的策略,并在近年来衍生出各种全新的基于各种大数据库与人工智能等结合的目标基因簇高效筛选方法,极大促进了海量未知基因簇的挖掘,加速了新结构天然产物的高效发现。

本文系统阐述了三类(宏)基因组文库构建使用的载体、原理、特征以及构建策略,并重点介绍了针对大量文库构建所驱动的多种高效基因簇靶向筛选方法的开发及其在不同类型天然产物高效发现中的应用。通过比较不同类型文库的差异及优缺点,系统总结了基于文库构建与基因簇靶向筛选策略在微生物天然产物挖掘方面的优势,并展望了这类方法在未来的应用前景。


1  Cosmid/Fosmid文库构建驱动微生物天然产物高效挖掘


过去,人们利用质粒(plasmid)和λ噬菌体作为两种克隆载体系统引领了DNA片段克隆的时代,从而为操纵和扩增DNA片段提供了有效的途径。随着分子生物学的发展,研究人员逐渐发现上述两种常规克隆载体已无法满足大片段DNA稳定克隆的需求,迫切需要开发能容纳更大DNA片段、更加稳定的载体系统。20世纪中后期,Cosmid与Fosmid载体被相继开发用于较大片段DNA的克隆,这为(宏)基因组文库的构建提供了有效的载体工具。鉴于这两种载体系统均可容纳约40 kb的外源DNA片段,这极大地提高了克隆完整天然产物合成基因簇的可能性,从而为新结构天然产物的挖掘提供了有效途径。


1.1  Cosmid文库构建及目标基因簇靶向筛选


1978年,Collins等构建了一种新型载体Cosmid。该载体系统同时具备λ噬菌体与质粒两种克隆载体的特征,一方面借助其λ噬菌体DNA cos序列,利用λ噬菌体识别cos位点的原理包装外源线性DNA并侵染大肠杆菌,使DNA在cos位点环化形成完整的Cosmid载体;另一方面借助质粒载体的元件实现DNA环化组装的Cosmid在大肠杆菌体内的复制,最终实现外源DNA的稳定克隆与复制。鉴于Cosmid载体的主要特征是其克隆的DNA片段大小最高可达40 kb左右,在克隆完整基因(簇)时具有很好的优势。同时,Cosmid载体具有插入片段分布均匀、遗传稳定性好、拷贝数高等特点,这使得其能够有效地实现大量外源DNA重组片段在大肠杆菌中复制,从而形成庞大的Cosmid基因(组)文库。

随着大量Cosmid文库的构建,研究人员开发了许多高效基因簇靶向筛选方法,并在各种微生物生物功能基因(簇)的研究中得到了广泛应用,特别是在挖掘克隆天然产物合成基因簇方面。例如,Li等通过构建链霉菌TP-A0356菌株Cosmid文库进行基因组挖掘,使用基因簇序列引导的PCR靶向筛选策略高效鉴定到包含完整链丝菌素(Streptothricin,ST)合成基因簇的Cosmid,随后通过异源表达发现了化合物Streptothricin F、Streptothricin D以及2个新的ST类似物。杨其会采用Cosmid文库构建的方式对链霉菌Streptomyces netropsis DSM 40846菌株进行基因组挖掘,借助基因簇功能预测与BGC序列引导的PCR对行列池和96孔板内含目标基因簇的克隆进行靶向筛选,成功实现了基因簇的高效鉴定与挖掘,最后通过异源表达获得了一系列代谢产物,包括偏端霉素A、Citrulassin B及异呋喃萘醌类似物等活性化合物。张巧燕针对新疆特殊生境链霉菌新种Streptomyces alarensis TRM 15522构建了Cosmid文库,并利用序列引导的PCR筛选策略成功挖掘到3个包含较为完整的天然产物合成基因簇的Cosmid,并通过异源表达差异谱分析发现了新的可能化合物。Gao等基于黏细菌Sorangiineae MSr11367中BGC的功能预测,通过构建Cosmid基因组文库和对类似嗜铁素coelibactin NRPS基因簇序列进行PCR鉴定,实现了BGC靶向筛选与挖掘,并在Myxococcus xanthus DK1622中进行异源表达,最终分离出了一类新颖的嗜铁素Sorangibactins。

鉴于大部分微生物在实验室条件下不可培养,宏基因组学的发展为研究这些微生物功能基因提供了有效途径。基于Cosmid构建的微生物宏基因组文库在高效挖掘环境中大量可培养与不可培养微生物所蕴藏的新颖基因簇方面表现出巨大的潜力。例如,Courtois等对土壤环境DNA构建了包含5000个克隆的Cosmid文库,通过筛选发现了几个新的聚酮合酶合成基因簇并利用异源表达策略获得了其编码的化合物。美国洛克菲勒大学Brady教授团队在土壤宏基因组挖掘方面做出了奠基性工作,并在基于天然产物序列引导的PCR流程的基础上,结合众多生物信息学数据库与结构预测工具开发了多种高通量基因簇靶向筛选方法,为新型天然产物的挖掘提供了重要思路与途径。例如,Bauer等利用犹他州土壤的环境DNA(environment DNA,eDNA)构建了Cosmid文库,使用一组最小PKS特异性简并引物对文库中含有Ⅱ型PKS BGC的克隆进行PCR靶向筛选,最后利用异源表达策略在白色链霉菌J1704中成功表达了化合物erdacin以及两种新的氮杂醌衍生物utahmycins A和B。Libis等构建了土壤宏基因组Cosmid文库,共获得了107个克隆。然后,他们采用简并引物对Cosmid文库池中NRPS腺苷酸化结构域或PKS酮基合成酶结构域进行了扩增,获得了一系列天然产物序列标签(natural products sequence tag,NPST),并且利用大数据库采用基于共现网络的CONKAT-Seq策略,实现了NRPS或PKS基因簇的精准定位与高通量靶向筛选,最后通过异源表达在白色链霉菌J1074中获得了新化合物Omnipeptin。Li等也构建了针对土壤的Cosmid宏基因组文库,共获得了超过2×107个克隆。在获得文库中NRPS腺苷酸化结构域的NPST后,采用了另一种基于eSNaPD(environmental Surveyor of Natural Product Diversity)生物多样性预测软件的谱系分析策略,实现了在NRP数据库中基于最小结构基序的目标基因簇的高通量靶向筛选,并获得了3条新的潜在的甲萘醌结合抗生素(menaquinone binding antibiotic,MBA)合成基因簇,最后利用结构预测化学合成的方式迅速获得了具有显著抑制耐甲氧西林金黄色葡萄球菌(methicillin-resistant Staphylococcus aureus,MRSA)与多重耐药结核分枝杆菌(multidrug-resistant Mycobacterium tuberculosis)等活性的化合物MBA3(图1)。


图1  土壤宏基因组Cosmid文库构建驱动新化合物高效挖掘

(NPST—天然产物序列标签。采用基于共现网络的CONKAT-Seq策略或基于eSNaPD软件的谱系分析获取感兴趣的基因簇,通过异源表达或化学合成方法获取新化合物。)


1.2  Fosmid文库构建及目标基因簇靶向筛选


虽然Cosmid在(宏)基因组文库构建中得到了许多广泛的应用,但Cosmid文库一定程度上存在许多问题。首先Cosmid的高拷贝特性使得其容易发生DNA重排,这使克隆的外源片段无法稳定存在;其次由于Cosmid文库需要对基因组DNA进行酶切从而获得片段化的DNA,因此难以克服基因组中酶切位点的选择偏好性,极大限制了Cosmid的应用 。为解决上述问题,Kim等在Cosmid载体pUCcos的基础上将携带有大肠杆菌致育因子(即F因子)的pBAC载体与之融合后构建成了一种pFOS1的单拷贝Fosmid载体。后续经Epicentre公司改造,通过引入诱导型高拷贝复制起始点oriV获得了pCC1FOS和pCC2FOS载体。由于Fosmid载体的单拷贝,使DNA重排概率大大降低,能够在体内稳定复制,而诱导型多拷贝又可实现大量载体与克隆的获取;同时,Fosmid文库是通过机械剪切物理打断获得片段化DNA,因此有效地解决了酶切带来的位点选择的偏好性问题。鉴于Fosmid克隆更加稳定,且插入片段平均大小与Cosmid差不多(约40 kb),因此Fosmid逐渐取代Cosmid成为一种新的载体系统用于构建(宏)基因组文库,并在各种生物功能基因的研究及天然产物合成基因簇的挖掘方面有着许多的应用。

Felczykowska等构建了3个蓝藻的泛基因组文库,并通过抗菌、抗癌等生物活性评估筛选到了含有潜在功能基因的目标克隆,并进一步获得了含有活性化合物的提取物。Wolf等针对Streptomyces sp. ATCC 14903中的生物合成多样性,构建了一个含有2880个克隆的Fosmid文库,并借助序列引导的PCR策略对其中的放线酰胺素actinonin生物合成基因簇进行了靶向筛选,最后在白色链霉菌J1074异源宿主中成功表达了相应化合物。Jiao等聚焦PKS-NRPS杂合的clifednamides化合物,构建了Kitasatospora sp. S023菌株的Fosmid文库进行目标基因簇挖掘,使用PCR对包含完整cftS023基因簇序列的克隆进行靶向筛选,最后在Streptomyces sp. S001异源宿主中重构其生物合成途径并成功异源表达了7种新的多环四聚体大内酰胺clifednamides D~J以及两种已知的化合物clifednamide A、clifednamide B。

Fosmid文库也能够实现保存环境样本中所包含的全部微生物基因组DNA的目的,并用于后续的基因(簇)功能分析与天然产物挖掘,因此在宏基因组学的研究中也得到广泛应用。芦晓飞等对西藏米拉山高寒草甸土壤微生物进行DNA提取及宏基因组Fosmid文库构建,获得了30624个克隆,为后续挖掘和研究其中的功能基因奠定了基础。Negri等构建了包含83 700个克隆的土壤宏基因组Fosmid文库,并使用Nanopore和Illumina测序技术实现重叠群Contig组装,利用antiSMASH预测PKS、NRPS、Terpene、Lassopeptide等BGC类型,并结合自主开发的SNRCM工具实现高通量靶向筛选鉴定目标BGC的目的,为后续天然产物的发现提供了良好的工具。未来,Fosmid宏基因组文库构建与相应的筛选策略的开发预计将驱动大量环境微生物天然产物的高效发现。


2  BAC/PAC文库构建驱动细菌活性天然产物高效挖掘


事实上,大量微生物天然产物合成基因簇尺度远远大于40 kb,而Cosmid/Fosmid文库在克隆这些基因簇时,受限于克隆尺度往往会出现高度重复序列的克隆,克隆偏好性大大增加,而且造成叠连序列组装困难,大量Contig边界的形成显著提高了目标基因簇筛选的难度。鉴于Cosmid/Fosmid文库不能再满足对更大片段DNA克隆的要求,为获取大尺度DNA,克隆载体的发展进入以BAC/PAC等可插入超过100 kb大片段的载体为主的阶段,这也使得BAC/PAC基因组文库构建逐渐成为应用更为广泛的大片段完整天然产物合成基因簇挖掘的策略。


2.1  BAC文库构建及目标基因簇靶向筛选


1992年Shizuya等在含有F因子的pMBO131载体的基础上引入了cosN、loxP等元件构建了第一个BAC载体pBACl08L,后续逐渐引入蓝白斑筛选标记以及其他元件,衍生出了大量的BAC系列载体。由于BAC载体含有RepE、ParA、ParB等F因子元件,因此其具有容纳100~300 kb以上外源大片段的能力;BAC载体由于具有F因子单拷贝复制的特征,因此其遗传稳定,保证了外源DNA的低缺失、低嵌合与低重组特性。总之,BAC载体逐渐成为近些年来应用最广泛的载体,在克隆大尺度基因簇上具有非常良好的优势。目前基因组BAC文库作为广泛应用的DNA文库,在不同植物、动物尤其是微生物中得到了广泛应用。

华中农业大学罗美中教授团队对BAC文库的构建方面有着突出的贡献。起初,该团队构建了大量的植物BAC文库用于基因组研究。2001年,他们构建了甜瓜耐多病品系MR-1的两个BAC文库,共获得了530个HindⅢ BAC克隆和422个EcoRI BAC克隆,并通过探针筛选了抗枯萎病Fom-2基因用于后续研究。而在微生物BAC文库构建方面,鉴于链霉菌所展现的巨大生物合成潜力,为建立针对链霉菌的BAC文库,罗美中教授团队黄胜等构建了用于链霉菌大片段基因组DNA克隆与异源表达的BAC载体,并利用该载体构建了链霉菌U27基因组的BAC文库,为链霉菌来源的新型天然产物挖掘提供了一种新的解决方案。借助这个思路,刘家栋等为了解阿维链霉菌的生物合成基因簇,解析阿维菌素的生物合成路径,构建了平均插入片段达101 kb的BAC文库,获得2304个克隆,实现了25.9倍基因组的覆盖率。

目前,利用BAC文库进行基因簇筛选并获得感兴趣的化合物的策略得到了极其广泛的应用。比如Geldanamycin、Daptomycin等临床应用的一线抗生素药物,其生物合成基因簇均是利用BAC文库构建的方式通过靶向筛选克隆获取的。此外,许多具有显著生物活性的微生物天然产物化合物也逐渐利用BAC文库构建与基因簇靶向筛选策略得到了挖掘与开发。例如,Liu等构建了针对链霉菌NRRL 30748的BAC文库,并成功克隆到Meridamycin生物合成基因簇,进行了后续的化合物异源表达。Deng等构建了S. avermitilis ATCC 31267的BAC文库,通过PCR靶向筛选与异源表达策略,在变铅青链霉菌1326菌株中成功产生了3种阿维菌素组分。Kazuo Shin-ya团队从小单孢菌Micromonospora chalcea AK-AN57菌株基因组BAC文库中通过目标基因簇序列的上下游PCR靶向筛选与异源表达策略在变铅青链霉菌TK23中成功获得了化合物Quinolidomicin;此外,他们还利用BAC文库从娄彻氏链霉菌IFO12908菌株中通过基因簇序列引导的PCR靶向筛选和阿维链霉菌 SUKA32菌株异源表达策略获得了一种JBIR-156新型多烯大环内酰胺化合物。上海交通大学陶美凤课题组徐敏等构建了针对娄彻氏链霉菌Sal35的基因组BAC文库,平均插入片段达108 kb,获得了784个BAC克隆,基因组覆盖率达10倍。为了更好地实现目标基因簇的高通量靶向筛选,其团队建立了高通量的文库表达筛选系统LEXAS,实现了基于“点对点”的变铅青链霉菌SBT5的异源表达和抗菌活性筛选,最后对表达的化合物进行结构鉴定,高效获得了疏螺体素、链丝菌素和一种新型羊毛硫肽化合物Lexapeptide[图2(a)]。


图2  细菌基因组BAC/PAC文库构建加速活性天然产物高通量挖掘

(a) 构建娄彻氏链霉菌Streptomyces rochei Sal35基因组BAC文库,建立LEXAS筛选系统,高效挖掘新化合物;(b) 构建100株链霉菌基因组PAC文库,采用基于共现网络的CONKAT-Seq策略大规模获取新的非核糖体或聚酮类化合物合成基因簇,并在不同宿主中异源表达,高效获取新化合物


2.2  PAC文库构建及目标基因簇靶向筛选


随着P1噬菌体的发展,Sternberg等基于P1噬菌体构建了一种与Cosmid工作原理相似的载体,即P1噬菌体载体。它含有很多P1噬菌体来源的顺式作用元件如pac、loxP、Cre重组酶元件等,可容纳70~100 kb大小的DNA片段。1994年,Ioannou等构建了一种由P1噬菌体衍生而来的PAC载体。由于其结合了P1噬菌体载体和F因子元件的优点,使其同时具备了与BAC类似的容纳100~300 kb外源DNA大片段的能力,同时兼具高稳定性、高转化率等特征。

虽然PAC的应用没有BAC那么广泛,但目前PAC文库在克隆微生物天然产物生物合成基因簇方面也得到了许多应用。例如,Jones等构建了链霉菌Streptomyces tsukubaensis NRRL 18488基因组PAC文库,共获得了1920个PAC,然后通过针对目标基因簇序列的三对引物PCR靶向筛选获得目标基因簇克隆,最后利用异源表达策略在4种天蓝色链霉菌衍生菌株中成功表达了重要的免疫抑制剂FK506化合物。Castro等针对来源于超干旱阿塔卡马沙漠的链霉菌Streptomyces leeuwenhoekii 菌株构建了PAC基因组文库进行基因组挖掘,并通过基因簇预测与序列引导的PCR靶向筛选策略成功获得了包含目标基因簇的克隆,最后利用异源表达策略成功在天蓝色链霉菌及其衍生菌株中表达了Chaxamycin及其衍生化合物。Tu等针对海洋链霉菌Streptomyces koyangensis SCSIO 5802中蕴含的neoabyssomicin和abyssomicin两种新型化合物生物合成基因簇构建了PAC基因组文库,通过基因簇PCR靶向筛选与异源表达策略在天蓝色链霉菌M1152中成功获得了目标化合物。Libis等挑选了100株链霉菌,构建了含有60 000个克隆的PAC文库,平均插入片段达140 kb。他们针对文库的天然产物合成基因簇采用简并引物扩增获得了NRPS腺苷酸化结构域或PKS酮基合成酶结构域的NPST,采用基于共现网络的CONKAT-Seq筛选策略,高通量快速定位了目标基因簇。最后将含有感兴趣的完整目标基因簇的PAC分别在白色链霉菌J1074和变铅青链霉菌RedStrep 1.7中进行了异源表达,最终获得了Prolinolexin、Cinnamexin和Conkatamycin三种化合物,尤其是Conkatamycin显示出对多重耐药金黄色葡萄球菌的抗菌活性[图2(b)]。


3  FAC/YAC文库构建驱动真菌天然产物高效发现


上述基于两大类载体构建的(宏)基因组文库大都建立在以细菌为代表的微生物,而随着微生物天然产物来源研究的不断深入,大量的研究发现丝状真菌基因组中同样蕴藏着巨大的生物合成潜力。例如,从产黄青霉(Penicillium chrysogenum)中发现的青霉素、从土曲霉(Aspergillus terreus)中发现的洛伐他汀类药物、从内生菌内曾发现的紫杉醇以及从构巢曲霉(Aspergillus nidulans)中发现的棘白菌素类化合物均是丝状真菌次级代谢产物的代表。由于丝状真菌遗传背景复杂、操作困难,直接对其基因组进行编辑的难度较大。因此基于文库构建的思路克隆编码这些丝状真菌次级代谢产物的生物合成基因簇为挖掘真菌天然产物提供了一种互补的策略。为此,开发出能够携带针对丝状真菌天然产物合成基因簇的载体逐渐成为一种新颖的研究思路,其中新型的FAC载体和应用广泛的YAC载体逐渐被用于构建真菌基因组文库从而获取目标基因簇。


3.1  FAC文库构建及目标基因簇靶向筛选


真菌人工染色体FAC是一种新型的大肠杆菌穿梭真菌人工染色体。2015年,Clevenger等基于BAC载体的骨架,通过插入构巢曲霉AMA1真菌自主复制元件,将BAC修饰为FAC,从而构建了FAC载体系统,在大肠杆菌中可稳定克隆100~300 kb的DNA片段。该团队利用这一FAC系统,构建了不同丝状真菌基因组的FAC文库,发现了包括Terezine D与Valactamide A等多个新型真菌次级代谢产物。

Bok等利用FAC载体系统对丝状真菌Aspergillus terreus 菌株进行FAC基因组文库的构建,获得了7680个克隆,平均插入大小为100 kb。然后他们通过筛选获得了含有56个基因簇的候选FAC,并挑选了15个FAC在构巢曲霉中进行异源表达,通过LC-HRMS表征了astechrome的生物合成前体化合物Terezine D。Clevenger等针对丝状真菌Aspergillus wentiiA. aculeatus A. terreus构建了包含156个克隆的FAC文库,平均插入片段约100 kb,然后将构建的FAC转入构巢曲霉中进行异源表达。针对发酵代谢产物提取物,采用基于非靶向代谢组学分析和打分系统(FAC-MS与FAC-Score)的高通量筛选策略,对仅在FAC菌株中检测到的化合物给予高分并加以验证,最终获得了Benzomalvin A/D(非核糖体肽)、Sesterterpenoid(萜类)和新化合物Valactamide A(非核糖体肽-聚酮杂合化合物)(图3)。


图3  真菌基因组FAC文库构建驱动真菌天然产物创新发现

(采用非靶向代谢组学打分系统,精准实现新化合物的筛选与分离)


3.2  YAC文库构建及目标基因筛选


酵母人工染色体YAC是一种完全意义上的真菌人工染色体。1983年,Murray等仿照酵母染色体构建了具有着丝粒、端粒、自主复制位点等酵母染色体元件的YAC载体,使其能够在酵母中实现稳定复制。YAC在容纳外源DNA片段的能力上具有里程碑式的意义,能实现100~2000 kb片段的插入。由于YAC具有接受超大DNA片段的优势,其在常规基因簇克隆上的应用并不多,反而多应用于更大尺度的高等真核生物的复杂基因组文库,比如人类染色体以及一些植物与动物基因组的功能挖掘、基因组物理图谱构建。

1987年,Burke等构建了人类基因组YAC克隆。Saji等构建了12条水稻染色体的新型YAC文库。由于YAC插入片段大,只需要少数克隆即可覆盖整个基因组,因此YAC文库常用于进行片段重叠,填补间隙绘制完整的重叠群contig图谱。随着微生物天然产物挖掘的不断深入,未来可能会发现一些更大尺度的天然产物生物合成基因簇,YAC文库的构建为筛选出含有目标大尺度基因簇提供了可能,这也为后续进一步挖掘新化合物提供了新途径。



总结与展望

近年来,随着大规模微生物(宏)基因组测序技术与生物信息学的快速发展,antiSMASH、MIBiG、BiG-SCAPE或BiG-SLiCE等基因组挖掘工具与BGC数据库的开发,利用(宏)基因组挖掘策略在有效获取新结构天然产物方面展现出了多样化、高通量、规模化的特征。大片段基因簇克隆技术作为天然产物挖掘的一种有效工具逐渐被开发与推广应用。基因组文库构建作为基因簇克隆技术的一种方法,在最大限度保存基因组信息方面展现出无可比拟的优势,但大量的筛选工作使研究人员望而生畏。然而,随着合成生物学、高通量测序与人工智能等生物信息学技术的发展,大量的基因簇靶向筛选方法逐渐被开发,显著加快了微生物天然产物的高效发现。本文详细阐述了基于大片段基因簇克隆技术的三种主要(宏)基因组文库类型以及针对基因簇的高效靶向筛选方法,并介绍了它们在新型微生物天然产物发现中的应用。但目前主流的几种(宏)基因组文库在其载体以及用于新化合物高效发现的策略方面也具有各自的独特优缺点,详细对比见表1。


表1  不同类型文库构建策略用于新化合物高通量发现的比较


Cosmid/Fosmid文库插入片段均匀、稳定性较好,但插入片段较小,主要适合于针对eDNA的宏基因组挖掘;BAC/PAC文库具备插入片段较大的特征,且遗传稳定,转化效率高,但由于目前技术限制,仅适合于单一或有限数量微生物的基因组挖掘,而针对含有大量eDNA的宏基因组而言,常常会出现选择性偏差、片段随机性差、文库质量低下、重复率高等问题;FAC/YAC文库在真菌基因组挖掘上具有一定优势,且克隆片段尺度相比前两种更大,在基因组物理图谱重构中发挥重要作用,但克隆稳定性差、嵌合比例高、外源DNA易缺失等问题严重。综上所述,虽然基于不同克隆载体构建的(宏)基因组文库已成功应用于多种天然产物合成基因簇的克隆,但由于不同文库自身存在一定的适用范围,面对着海量功能未知的基因簇,研究者需根据不同目的加以选择。

近年来,随着常规环境来源的微生物中新结构、新靶点化合物发现比例显著下降,研究人员开始转向稀有种类微生物与极端生境或未开发的生境微生物的研究。这些未知微生物中可能不仅包含了细菌中基因簇丰度最大的链霉菌属,也包含了拟无枝酸菌属、库茨纳氏菌属和小单孢菌属等非链霉菌属的稀有放线菌,以及未鉴定的丝状真菌。通过各种天然产物发现方法或将有效揭示其中蕴含的巨大生物潜力。但由于这些微生物大都不可培养,因此基于文库构建与基因簇靶向筛选策略将极大驱动这些“暗物质”的挖掘,展现出强大的应用价值,预期将为新药创制提供重要化合物资源。



通讯作者及团队介绍


李雷,上海交通大学生命科学技术学院长聘教轨副教授,博士生导师,合成微生物药物课题组组长,国家优秀青年科学基金(海外)获得者。长期从事微生物天然药物创新发现与高效制造研究。作为第一或通讯作者在Nat MicrobiolMetab EngOrg Lett 等国际学术期刊发表论文20余篇。担任J Ind Microbiol Biotechnol编委与iMeta青年编委。入选国家博新计划、上海市浦江人才计划与上海市海外高层次人才引进计划等。主持国家重点研发计划项目课题、国家自然科学基金面上项目与教育部优秀青年团队项目课题等多个项目。



代谢主义
生命在于代谢 人生在于折腾
 最新文章