谁说机器学习玩烂了?那是你没学到精髓!来看看纯“机器学习”“0实验”的14+文章!学会这波操作“paper”皆有可能!

学术   2024-11-02 19:00   上海  

老板天天CPU?果叔这人怪好嘞,今天带你“遥遥领先”!
嘿,各位小伙伴们!“机器学习”大家应该不陌生,最近它的热度极高。运用好“机器学习”可真的掌握了发文密码,聪明的生信人已经进军“机器学习”了!纯生信就能发一篇14+的文章,怎么做到的?跟图图来来看看吧~
这篇文章是发表在Cell Reports Medicine上题为Discovery and validation of a 10-gene predictive signature for response to adjuvant chemotherapy in stage II and III colon cancer的研究性论文。
1:采用了半监督机器学习方法,分析了933个II期和III期结肠癌样本的数据。通过基因调控网络,识别出18个基因的预后签名和一个潜在预测化疗效果的10基因签名 。
2:通过基因网络分析筛选出关键基因,并在多个独立数据集中(如GSE39582、GSE17538等)系统验证了这两个基因签名的预测性能。
3:研究还探讨了10基因签名在免疫检查点阻断(ICB)疗法中的潜在应用,显示出显著的正相关性。
这项研究不仅在生物信息学方法上展示了显著创新,还为结直肠癌患者的个体化治疗提供了新工具。(ps:动动手指扫描二维码!快快联系果叔!专业的团队手把手带你设计创新性极高的机器学习路线,果叔还能帮助你解决实验问题哦~专业团队为你保驾护航!)


线上课程教学

课题设计、定制生信分析

云服务器租赁

加微信备注99领取使用

   
题目:发现和验证II期和III期结肠癌辅助化疗反应的10个基因预测标签
杂志:Cell Reports Medicine
影响因子:14.3
发表时间:2024年8月
研究背景
结肠癌是全球第四大致死癌症,每年约导致90万人死亡。虽然对于局限于肠道的I期结肠癌患者无需化疗即可达到约90%的五年生存率,但III期结肠癌患者接受化疗后的五年无病生存率仅为73.4%至76.3%。在高风险II期和III期结肠癌患者中,5-氟尿嘧啶(5-FU)为基础的辅助化疗已被广泛应用于术后的治愈性治疗。然而,辅助化疗的决策过程复杂,尤其是对于II期结肠癌患者,临床试验结果并不支持所有II期患者均接受化疗。尽管对于III期患者,辅助化疗的建议更为普遍,但仅约20%的接受者能够从中获得显著的生存优势。鉴于此,迫切需要发现更好的预测生物标志物,以识别那些最有可能从辅助化疗中获益的II期和III期患者,从而避免不必要的毒性,并推动更有效的辅助治疗方案的研究和应用。    
研究思路
本研究采用机器学习方法,分析了包括933例II期和III期结肠癌样本的大型数据集,构建了一个18基因的预后签名和一个10基因的化疗受益预测签名。通过使用福尔马林固定石蜡包埋(FFPE)样本进行临床验证,确保了模型的临床适用性。研究的创新性在于通过基因调控网络和大规模数据分析,精确识别出对5-FU基础辅助化疗有反应的患者群体,从而优化了辅助化疗决策,具有潜在的临床应用价值。
主要结果
1:半监督基因网络分析确定了一个18枢纽基因集
通过对GSE39582数据集数据筛选,得到3091个的候选基因。随后结合五个不包含生存结果的基因表达数据集构建了一个包含933个样本和3091个基因的大型基因表达数据集,并使用SPACE算法构建了一个包含504个节点和737条边的基因网络。最终得到了连接超过11个节点的前18个枢纽基因,包括THY1、BUB1、SDPR、NAP1L3、DEPDC1、STON1、DLGAP5、FBN1、ATAD2、HSD17B2、KIF23、CHAC2、FRMD6、MCM10、TPX2、AURKB、CYR61和FAM84A基因。    
图1:工作流程图
2:预测模型构建与性能评价
研究人员通过使用GSE39582数据集构建了一个预后预测模型用来评估18个枢纽基因集在结肠癌预后预测中的有效性。通过数据库验证结果显示,高风险组和低风险组的风险比(HR)分别为3.324(p = 0.005)、3.933(p = 0.003)、11.543(p < 0.0001)和4.745(p = 0.032)。单变量和多变量Cox回归分析进一步证实,这18个枢纽基因集与无复发生存率显著相关。研究结论表明,这18个枢纽基因集可作为结肠癌预后的有效基因签名,具有重要的临床应用价值。    
图2:18个中心基因特征的识别和随机生存森林(RSF)预后模型的验证
3:18核心基因预后模型优于现有特征
研究人员比较了基于18个核心基因的预后模型和按照p值筛选的18个显著的基因,结果显示,基于半监督方法获得的18个核心基因的预测性能优于18个最显著基因。此外,18个核心基因组的冗余信息较低,且主成分分析表明其在结肠癌患者中显示出更多变异。在GSE39582数据集中18个核心基因组的平均表达水平也显著高于18个顶级基因组。因此,18个核心基因组在预后预测中表现最佳。    
图3:18核心基因集和18最显著基因集的比较
4:基于5-FU的ACT化疗获益基因标签的鉴定和验证
研究人员通过机器学习的方法开发验证了一个18基因预后签名和一个10基因化疗获益预测签名,并且结合TCGA数据和MethHC数据库最终确定了10个基因组成的化疗获益预测签名。通过对5-FU敏感性和耐药性的进一步验证,研究显示该10基因签名显著优于随机基因集,表明其在指导临床治疗决策中的潜在应用价值。
5:使用FFPE样品验证18-和10-基因签名
为了验证18基因预后模型和10基因化疗获益模型的实用性,研究团队收集了109例II期和III期结直肠癌标本,并通过NanoString nCounter平台检测了18个中心基因的表达,其中56例接受了基于5-FU的辅助化疗(ACT)。18基因预后模型将标本分为高复发风险和低复发风险组,其HR值为3.542,log rank p值为0.009。单变量和多变量Cox回归分析进一步验证了其为独立预后因子。10基因化疗获益预测模型将接受5-FU ACT的标本分为获益组和非获益组。非获益组患者的无复发生存期较差,HR值为2.735,log rank p值为0.058。单变量和多变量Cox回归分析结果分别为2.765 (p=0.069) 和4.469 (p=0.074)。此外,研究发现ACT非获益组中KRAS和PIK3CA的突变频率较高(分别为40%和20%),而ACT获益组中分别为9.8%和4.9%。18基因和10基因评分在左侧和右侧病灶之间无显著差异,但10基因签名在MSI-H亚组中表现出显著的ACT获益,这表明其在识别可能从ACT中获益的患者方面具有重要意义。    
   
图4:RSF化疗获益模型的验证
6:基于5-FU的ACT化疗有益基因标记的药物敏感性分析
研究团队将10基因化疗获益签名应用于NCI-60细胞系,以预测其对5-FU的敏感性。这些细胞系数据来自CellMiner平台,并被分为14个5-FU敏感组和46个5-FU耐药组,其中包括2个和5个结肠癌细胞系。Wilcoxon秩和检验结果显示,5个5-FU敏感结肠癌细胞系的GI50值中位数显著高于2个5-FU耐药结肠癌细胞系(p值<2.2×10^-16)。这表明,10基因化疗获益签名能够有效预测结肠癌细胞系对5-FU的敏感性和耐药性。
图5:根据NCI-60数据预测60种癌细胞系5-FU耐药性的10基因化疗获益特征集的性能
7:10基因化疗获益特征相关基因网络的途径富集分析
为了更好地理解10基因化疗获益签名背后的生物学机制,研究团队对这10个基因(THY1, BUB1, DEPDC1, STON1, ATAD2, HSD17B2, TPX2, AURKB, CYR61和FAM84A)及其在SPACE基因网络中连接的135个基因进行了通路富集分析。我们测试了MSigDB(Broad Institute的分子签名数据库)中收集的743个标准通路,这些通路包含了前述145个基因中的重叠基因。结果显示,共有147个通路的名义p值小于0.05。此外,研究人员计算了每个样本的通路富集得分,并将这些得分与测试队列GSE17538中的ACT获益组和非获益组进行比较。结果显示,49个通路在ACT非获益组中表现出高表达活性,许多通路与肿瘤微环境有关。    
8:10基因化疗获益特征对免疫检查点阻断的潜在预测反应
研究发现,TIDE评分与10基因化疗获益评分在442个肿瘤样本中呈显著正相关(r = 0.33,p = 4.97 × 10^-13),但数据集会导致相关强度变化。在GSE37892中,相关性较弱(r = 0.13,p = 0.13),而在GSE17538、GSE33113和GSE38832中,相关性较强且显著,这表明10基因签名在ICB疗法中的预测作用需要进一步临床验证。
图6:10基因化疗获益特征与TIDE评分的相关性
文章小结
这篇文章通过半监督机器学习方法,开发并验证了一个18基因预后签名和一个10基因化疗获益预测签名,用于II期和III期结直肠癌患者。通过整合六个数据集的933例样本,研究筛选出关键基因并系统验证了其预测性能。10基因签名在多个数据集中有效区分了5-FU辅助化疗的获益患者,并显示出在预测免疫检查点阻断疗法中的潜力。(Ps:如果您在实验设计、生信分析上有困难,欢迎有疑难问题的同学们联系我们,我们提供全方位的生物信息学定制服务,帮助你解决各种问题。扫描二维码联系我们吧!果叔等着你们哦~)

果叔还提供思路设计、定制生信分析、文献思路复现;有需要的小伙伴欢迎直接扫码咨询果叔,竭诚为您的科研助力!


定制生信分析

服务器租赁

扫码咨询果叔


往期回顾

01

UKB数据库真的牛!3天接受,10天发表!免费新数据绝佳发文时期,拼的就是手速!仅2张图就能拿下IF:13.4分?!

02

NC优质平替!飞升1区Top,超10分的综合性毕业神刊!性价比超高,国人友好,Case Report也收!这波安全上车!

03

不做实验照样发Nature Communications!借诺奖东风“机器学习”+多组学分析,打造创新思路,每一步都踩在点子上!

04

IF=58.7,这泼天的多组学富贵可得接住!系统生物学研究团队开挂思路,机器学习助力个性化医疗,你就学吧,一看一个不吱声!



生信果
生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器等
 最新文章