这篇文章的数据处理方法需要再“研究”一下

文摘   2024-11-08 21:09   广东  


TitleCharacterization of the genomic landscape in large-scale Chinese patients with pancreatic cancer
Onlinehttps://www.thelancet.com/journals/ebiom/article/PIIS2352-3964(22)00081-0/fulltext

研究背景

胰腺导管腺癌 (PDAC) 是最致命的恶性肿瘤之一,5 年总生存率 (OS) 低于 10%。胰腺癌是中国第六大癌症死亡原因,遗传异质性在胰腺癌患者中很常见。在胰腺癌中证实的抗癌治疗有效靶点很少,根据胰腺癌基因组特征优化抗癌治疗的选择是一个急需解决的问题。

研究方法

  • 患者和样本:1080 名中国胰腺癌患者的血液和组织样本

  • 测序策略:使用靶向测序策略,用到的两个 Panel分别包括 381 和 733个癌症相关基因,NovaSeq 6000 平台, 100 bp 双端测序,平均测序深度为 500×。

  • 数据处理:BWA比对到参考基因组hg19,然后用Mutect call somatic SNV,Pindel call somatic Indel,拷贝数变异是内部脚本,最后用 ANNOVAR 进行注释。这里的数据处理流程值得怀疑。

  • 公共数据库:下载了TCGA、ICGC、UTSW、QCMG的胰腺癌数据进行比较

研究结果

  • 体细胞突变图谱:在 1080 例中国人胰腺癌患者队列中,共鉴定出 8329 个体细胞突变,涉及 652个基因。其中KRAS突变频率最高,top基因里有 TP53 (70.6%) 、 CDKN2A (28.8%) 、 SMAD4 (23.0%) 、 ARID1A (12.8%) 和 CDKN2B (8.9%) 等。主要影响的信号通路有:90.7% (n = 980) 的 PDAC 患者在 RTK/Ras/MAPK 信号通路中发生基因组改变,细胞周期控制 (35.7%) 和 TGF-β 信号通路 (32.4%)。

  • 临床分组基因突变的差异:基于年龄、性别、病灶等临床分组,分析基因突变的差异。患有 PDAC 的老年 (> 60 岁) KRAS 突变显著较高 (P = 0.003 )。PDAC 女性患者更常表现出 CDKN2B 和 AR 基因突变。原发性和转移性 PDAC 的比较显示,在转移中可能观察到 TP53、CDKN2A、SMAD4、MYC 和 CDKN2B 基因改变 。原发性和转移性肿瘤之间的 KRAS 突变无显著差异等。

  • 原发灶和转移灶肿瘤之间分子特征的差异:研究团队发现 CDKN2A 和 CDKN2B 在具有转移性的患者中的突变频率更高 (图 2a)。在转移亚组中,肝转移的CDKN2A 突变频率的比其他转移病灶更高 (图 2b)。与原发灶肿瘤相比,转移灶 CDKN2A 、 SMAD4 和 CDKN2B 的 CNV 缺失事件显著较高,而 TP53 、 KMT2C 和 SMARCA4 在转移中积累了更多的错义突变 (图 2c)。转移性 PDAC 患者 TMB 水平显著高于原发性肿瘤患者 (图 2d)。

  • KRAS 突变关联分析:KRAS 突变患者与其他三个驱动基因的突变显著相关,即 TP53 (77.3% 比 37.6%)、CDKN2A (31.8% 比 13.8%) 和 SMAD4 (25.5% 比 10.5%) 。然而,KRAS 野生型患者与 BRAF (0.4% 比17.1%)、CTNNB1 (1.2% 比9.4%)、ERBB2 (0.9% 比 7.2%) 和 TSC2 (1.0% 比 5.0%) 突变显著相关。(图 3b)。与国外的其他队列相比,中国的 PDAC 患者的 KRAS突变频率低于国外队列。(图3d)

  • DNA 损伤反应 (DDR) 缺陷相关基因:DNA 损伤 (DDR) 是 PDAC 的一个标志,在该队列中,Panel里有 22 个核心 DDR 相关基因发生的突变(包括生殖突变和体细胞突变)(图4a), DDR 基因生殖突变的患者比 DDR 基因野生型患者更年轻(图4b),TMB 水平也有差异(图4d)。

总结

该研究揭示了中国真实世界大规模 PDAC 患者临床测序的基因组特征。该研究结果有助于识别和预测潜在的靶向生物标志物,筛选对特定治疗有反应的特殊遗传亚型,并探索 PDAC 患者的临床实践和新药开发。

写在后面

文章的数据处理部分存在几点疑问,虽然是常规流程,但是从细节上可以看出来一些问题:

  • 1.比对的时候是直接采用了 raw data,一般要用 clean data;

  • 2.bwa版本太旧,估计是2015年甚至更早的了,Mutect版本也太低;

  • 3.比对后没有进行GATK BQSR;

  • 4.Panel测序进行拷贝数变异分析有待验证,作者甚至还提到了基因重排分析;

  • 5.文章后续分析用到germline突变,但在方法部分没有体现;

  • 6.测序用到了不同的Panel,但是作者提到TMB计算方法相同,是否指的是相同的基因坐标区间。


生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
 最新文章