你没见过的单细胞新玩法!“公立常青藤”北卡教堂山分校:单细胞多组学联合机器学习轻取11+,这本发文秘籍让我找到了

文摘   2024-07-03 19:42   山东  
各位小伙伴们大家好,又到了船长为大家分享文献的时候啦,专为大家提供独特而前沿的研究选题、分析思路和生信分析。今天船长就给大家分享一篇非常新颖的文章,如果最近没有idea的小伙伴们可不要错过。除此之外,船长还注意到这个期刊是2024影响因子中少数的不减反增的期刊,有时候不得不感慨选择比努力更重要,如果有需要期刊推荐的小伙伴,也可以联系船长哦~
从1981年世界上报告第一例艾滋病至今,人类与艾滋病的斗争已持续40年,现在被认为是全世界三大公共卫生问题之首。直至今日,仍有无数科学家走在终结艾滋病之路并为之奋斗。今天船长就带你了解这篇用单细胞组学+机器学习+CRISPR/Cas9技术来研究HIV病毒的文章,下面先带大家细数本文的亮点吧:
1、多组学数据集成与分析:文章采用了单细胞RNA测序和单细胞染色质可及性测序技术,并利用机器学习模型,对多维度数据集进行整合分析,提高了预测HIV基因表达的准确性。
2、转录因子活性与功能验证:识别并重点研究了GATA3和FOXP1两个转录因子,揭示了它们在HIV潜伏期逆转中的潜在调控作用。又结合CRISPR/Cas9基因编辑技术,对这些转录因子进行了功能性敲除实验,验证了它们在HIV表达中的作用。        
综合来看,这篇文章利用了单细胞多组学和机器学习算法,为理解HIV潜伏和逆转机制提供了新的视角和方法~ ps:船长持续给大家带来最新的科研资讯~小伙伴们如果在科研中,没有思路、不知道怎么创新,不妨来找船长来为你排忧解难,超多新颖的分析思路供你参考哦,还能教你如何利用公共数据库获取免费资源,感兴趣的小伙伴们快来戳戳下方的二维码吧~

定制生信分析

云服务器租赁

加好友备注“99”领取试用

后台回复321获取原文献,文献编号20240703
题目:艾滋病毒潜伏期逆转的单细胞多组学综合分析揭示了病毒再激活的新型调控因子
杂志:GENOMICS PROTEOMICS & BIOINFORMATICS
影响因子:IF=11.5
发表时间:2024年02月
研究背景
尽管抗逆转录病毒疗法取得了成功,但因为潜伏感染的细胞库逃避了治疗,人类免疫缺陷病毒(HIV)依旧无法治愈,尤其是HIV潜伏的长期性和潜伏期逆转的低效率问题。现有抗逆转录病毒治疗无法彻底清除潜伏的HIV感染细胞,加之病毒基因表达的复杂调控机制,使得开发能够广泛激活并清除潜伏病毒的新型治疗策略变得极为迫切。此外,患者对现有治疗的反应存在个体差异,病毒的逃逸和抗药性问题也增加了治疗的复杂性。
研究思路
本文的研究思路是通过单细胞多组学技术(scRNA-seq和scATAC-seq)对HIV潜伏感染的CD4+ T细胞在不同潜伏期逆转剂作用下的转录组和表观遗传组特征进行综合分析,利用机器学习模型预测病毒重新激活,并筛选出与此过程相关的新型调节因子。通过生物信息学工具进行数据分析和网络构建,以及实验验证,揭示了HIV潜伏期逆转的分子机制。
数据来源
数据集/队列
数据库
数据类型
详细信息
未感染HIV的scRNA-seq
10X Genomics
scRNA-seq
未感染HIV的PBMC数据集
未感染HIV的scATAC-seq
10X Genomics
scATAC-seq
未感染HIV的PBMC数据集


主要结果

1.HIV潜伏期体外模型中的潜伏期逆转
研究者利用2D10细胞和两名捐赠者的原代CD4+ T细胞模型,通过使用三种不同的LRAs(包括vorinostat、iBET151和prostratin)处理,来研究HIV潜伏期逆转(图1A)。实验发现vorinostat和prostratin能显著增加GFP阳性细胞的比例,而iBET151对原代细胞无明显效果(图1B和C)。
随后,通过scRNA-seq/scATAC-seq技术对细胞进行了综合分析,使用UMAP对scRNA-seq数据进行降维分析(图1D),显示了vorinostat和prostratin处理的细胞与对照DMSO处理的细胞在UMAP_1和UMAP_2上的明显分离,表明LRA特异性调节细胞基因。
基于转录组的图基聚类(图1E),观察到2D10细胞有10个聚类,而两名捐赠者的原代CD4+ T细胞分别有22个和20个聚类,每个聚类都有独特的表达谱。
这些聚类模式表明,每种条件下的细胞存在多种状态,且这些转录组聚类在scATAC-seq数据中也可见,尽管对于2D10细胞来说更难区分。

图1 HIV潜伏期逆转的单细胞多组学分析
2.病毒基因在单个细胞中的异质性表达
在2D10细胞中,大多数细胞(80%)在没有LRA刺激的情况下没有检测到vRNA表达。而使用三种不同的LRA刺激后,2D10细胞中HIV基因组区域的读取量显著增加(图2A)。在原代CD4+ T细胞中,即使在没有LRA刺激的情况下,大多数感染细胞(约80%)也表现出低水平但可检测的vRNA表达,而通过流式细胞术检测到的GFP阳性细胞比例只有约15%-20%,表明大多数感染细胞在该模型中保留了低水平的持续病毒转录(图2A和B)。
研究者还检查了病毒基因表达的诱导是否与感染细胞的转录组或表观遗传组特征相关。scRNA-seq数据的UMAP展示表明,表达vRNA的细胞在聚类中丰富于特定区域(图2B),当在聚类分析中排除vRNA时,这种细胞聚类现象不太明显,表明病毒转录本本身有助于形成这些聚类。即使在不包括vRNA的情况下,表达vRNA的细胞在scRNA-seq UMAP图中也显示出非随机分布,这表明病毒基因表达的重新激活与宿主细胞内的转录特征相关。

图2 艾滋病毒vRNA的表达和染色质的可及性
3.病毒基因表达与病毒基因组可及性的增加相关
在2D10细胞和原代CD4+ T细胞中,尽管HIV映射的scATAC-seq数据较为稀疏(图2E),但发现HIV映射scATAC-seq读数与每个细胞中vRNAs的丰度存在显著的相关性,这支持了病毒基因表达与前病毒染色质整体可及性相关的假设
研究观察到不同的LRAs对前病毒可及性有不同的影响(图2C和F-H)。Vorinostat在两个供体中均增加了前病毒的整体可及性,而prostratin在供体1中增加了可及性,但在供体2中变化较小,与它在该供体中对vRNA丰度影响较小一致。iBET151对两个供体的前病毒可及性几乎没有影响,这与其在该系统中缺乏潜伏期逆转活性一致        
通过汇总每个条件下所有细胞的scATAC-seq数据并检查病毒基因组上的读取密度,观察到2D10细胞和原代CD4+ T细胞中HIV基因组的5'端存在不同的可及性峰值,这些峰值与5'长末端重复序列(LTR)重叠
在2D10细胞中,最突出的峰值(位置:251-550 bp)对应于Nuc0和Nuc1之间的已知DNase I高敏(DHS)区域,并与位置455 bp的病毒转录起始位点(TSS)重叠(图2F)。在原代CD4+ T细胞中,LTR启动子相关峰值对vorinostat和prostratin的反应显示出可及性的增加,表明在原代CD4+ T细胞中,增加启动子可及性是有效潜伏期逆转的关键方面
研究结果与以下假设一致:HIV基因组整体可及性的增加与病毒基因表达的增加相关,这可能是由于核小体重塑和组蛋白修饰,允许RNA聚合酶II通过前病毒
4.LRA 可促进艾滋病毒感染细胞的转录组和表观基因组发生明确的变化
研究者分析了LRAs对宿主细胞转录本的影响(图3),发现每种LRA均引起了独特的基因表达变化。Prostratin对转录组的影响最大,而vorinostat和iBET151的影响较小。通过GO富集分析,研究者探究了DEGs的生物学意义,发现prostratin诱导的转录反应与T细胞受体、肿瘤坏死因子、Rap-1、PD-1检查点、FOXO/MAPK/RAS和NF-κB信号通路的激活一致
研究者还利用scATAC-seq数据检查了LRAs对HIV感染细胞染色质的影响,发现prostratin在两种细胞类型中都上调了最多的转录因子的基序可及性(图4)。使用chromVAR工具,计算了633个具有注释结合基序的TFs的偏差分数,并检查了每种LRA对这些TF偏差分数的影响。Prostratin刺激后,两个AP-1家族成员(JUN和FOS)的TF偏差分数显著增加,这与其在PKC信号通路中已知的作用一致。在原代CD4+ T细胞中,34个和24个TFs的基序可及性被所有三种LRA上调,而36个和28个TFs的基序可及性被下调,这些下调的TFs中包括SNAIL家族的成员。

图3 各LRA引起的上调基因的热图

 

图4 各LRA对TF偏差分数的影响
5.鉴定与HIV转录相关的细胞转录本
研究者分析了细胞内总vRNA水平与个别细胞转录水平之间的配对相关性,并在不同条件下进行了比较(图5A)。
在原代CD4+ T细胞中,研究者观察到2437个(捐赠者1)和1204个(捐赠者2)与HIV vRNA水平显著相关的转录本。特别值得注意的是,TSPOAP1在2D10细胞中与HIV vRNA水平高度相关,而在原代CD4+ T细胞中,CENPF、GAPDH、MKI67和BACH2等基因与HIV转录正相关
研究者还发现,与HIV vRNA水平负相关的基因包括LTB、IL7RA、SERINC5和SAMHD1(图5B)。进一步的GO富集分析显示,2D10细胞中相关转录本富集在翻译、细胞质翻译和ATP结合等;原代CD4+ T细胞中富集在DNA结合、ATP结合、金属离子结合和T细胞受体信号通路等。
此外还关注了与vRNA水平相关的TFs,在2D10细胞中,GATA3与HIV vRNA水平正相关,而CTCF负相关。在原代CD4+ T细胞中,BACH2、ETV6和IRF4等TFs的转录本与HIV vRNA水平正相关。        
研究者分析了TFs活性与HIV转录水平之间的相关性(图5C和D),发现在2D10细胞和原代CD4+ T细胞中,特定TFs的活性与HIV vRNA水平有正负相关性。在2D10细胞中,ETS、GATA和AP-1家族的TFs与HIV vRNA水平正相关,而TCF和SNAIL家族的TFs则负相关。原代CD4+ T细胞中,AP-1和NF-κB家族的TFs通常正相关,FOX家族的TFs负相关

图5 艾滋病毒转录与细胞转录本/TFs/峰值之间的关联分析
6.与艾滋病毒转录相关的动态染色质峰富含特定 TF 的结合位点
研究者随后分析了单个细胞染色质峰值的可及性与HIV转录之间的相关性(图5E)。在2D10细胞中,发现个别峰值与HIV转录的相关性较弱,但在原代CD4+ T细胞中,发现了数千个与vRNA水平相关的峰值。        
使用Signac工具进行基序富集分析(图5F),研究者在2D10细胞中发现了91个转录因子的结合位点显著富集,在原代CD4+ T细胞中,AP-1、FOX和KLF家族的TFs结合位点在富集峰值中最为显著
通过三种独立分析(TF编码基因表达、差异可及性、相关峰值中的基序富集)检测到与vRNA表达相关的TFs,发现这些TFs在表达与HIV关联的TFs中存在重叠(图6A)。
研究者进一步分析了这些TFs的协调行为,发现它们可以被分组为具有相关活性的不同簇(图6B和C),这揭示了先前识别的TFs之间的调控关系和协同作用。

图6 转录因子网络分析揭示了调控关系和协同作用
7.从多组学数据中建立艾滋病毒转录的机器学习模型
研究者使用机器学习方法来提高对HIV基因表达的预测能力,考虑到单独的转录本、转录因子偏差得分或峰值与vRNA水平的相关性较弱。
在原代CD4+ T细胞中,研究者使用GOSDT模型来预测细胞是否属于表达vRNA最高的10%。通过三个阶段的处理,包括特征排名、阈值猜测和模型训练,GOSDT模型在数据上表现出显著的预测能力(图7A-D)。        
研究者还使用XGBoost模型,来预测细胞群体中的HIV vRNA表达。该模型在两个捐赠者的数据上均表现良好(图7E),AUC值分别为0.791和0.751。
通过XGBoost模型,研究者确定了对模型性能最重要的个体特征(图7F),包括在2D10细胞和原代CD4+ T细胞中都排名靠前的MALAT1和TSMB4X
随后确定GATA3和FOXP1作为HIV潜伏期的新调节因子,并通过实验验证,发现,GATA3与HIV vRNA水平正相关,其敲除减弱了prostratin诱导的HIV重新激活;FOXP1与HIV vRNA水平负相关,其敲除促进了HIV vRNA的重新激活,而过表达FOXP1抑制了HIV表达,这表明GATA3促进而FOXP1抑制HIV的重新激活。

 

图7 艾滋病毒再激活的机器学习模型

文章小结

本文通过结合单细胞RNA测序和染色质可及性测序技术,运用机器学习模型和CRISPR/Cas9基因编辑技术,深入分析了HIV潜伏期逆转的分子机制。研究发现转录因子GATA3和FOXP1在调控HIV表达和潜伏期逆转中发挥重要作用,其中GATA3促进HIV重新激活,而FOXP1则可能抑制HIV表达。通过对原代CD4+ T细胞的多组学数据集进行综合分析,揭示了与HIV转录相关的细胞特征,并利用机器学习提高了预测HIV表达的准确性,就这样很完美的讲述了一个故事,最终还用机器学习完成了一个漂亮的收尾!看完这篇文章之后你是否有一些新的思路?如果你有一些新的idea需要实验设计层面的建议,又或者是手中有数据却无从下手分析,欢迎来公众号后台滴滴船长,为您排忧解难~

船长寄语


船长可以为您提供以下服务哦:评估思路(免费)、生信分析、方案设计、服务器租赁、特色数据库搭建等!欢迎大家扫码咨询,有问必答!

生信分析

思路设计

服务器租赁

扫码咨询船长

往期推荐



1、硕士一作发医学顶刊BMJ,影响因子93分+,豪气!都说GBD数据库牛,还不上车~
2、这谁顶得住哇!上海交通大学沈柏用等团队整合80+公共数据集,应用泛癌单细胞转录组+机器学习构建乳酸代谢签名拿下11分+!
3、你知道跌了3分对一本8分的杂志来说有多心痛嘛!本来孟德尔随机化+铁死亡+单细胞转录组拿8分,现在是5分啦......
4、师兄看了连夜学习! 南京大学附属金陵医院单细胞+机器学习+干湿结合,一套组合拳轻取二区SCI!
         

 

   

生信海
怕错过生信热点?来生信海,船长日更不落伍!船长擅长思路设计、个性化生信分析、高分文献复现、特色数据库搭建等,欢迎来撩~
 最新文章