随着高通量测序技术的飞速发展和多组学分析的广泛应用,科研人员在探索生物学奥秘时经常遇到一个令人又爱又恼的问题:如何从浩如烟海的数据中挖掘出潜在的疾病关联靶点?又如何构建一个全面而有效的诊断或预后模型?只有通过优雅的数据挖掘、精致的结果展示、深入的讨论分析,并且辅以充分的湿实验验证,我们才能锻造出一篇兼具深度与广度的“干湿结合”佳作。
在这期公众号里,纽科生物携手同济大学、上海交通大学和上海第六人民医院的顶尖专家,共同带来一篇全新的研究成果。这篇文章刚于今年二月鲜亮登场,发表在《Clinical and Translational Medicine》(影响因子10.6)杂志上。我们提供了关键的转录组测序与数据分析支持,本次“官方”解读旨在为广大生物学研究者呈现一条清晰的研究路径和分析流程。我们将重点解答研究者们最关注的几个问题:数据从哪里来?如何进行分析?如何选择靶点?怎样建立关联?希望这次深入浅出的分享,能激发您的研究灵感,助您一臂之力。
作为一篇有灵魂的公众号文章,我们也有幸邀请到文章一作,王永杰博士为各位读者分享他的科研心路历程。
文章标题:Identifying squalene epoxidase as a metabolic vulnerability in high-risk osteosarcoma using an artificial intelligence-derived prognostic index
中文标题:利用人工智能得到的预后指数(artificial intelligence-derived prognostic index,AIDP1),发现鲨烯环氧酶(SQLE)在高危骨肉瘤中的代谢脆弱性
纽科提供:转录组测序+生信分析
[研究背景]
[研究思路]
[研究优势]
Q1:数据如何获取
本篇文章生信部分的数据均来自公共数据库
主要使用到的数据集如下表所示
表1. AIDP1模型构建和靶基因选择所使用的数据集
Q2:如何最大化分析方法价值,构建模型挖掘数据?
“机器学习”、“101种算法组合”听起来似乎既复杂又深奥,但熟悉生信的小伙伴们或多或少都听过和使用过几种机器学习算法,例如随机生存森林(RSF)、LASSO回归和支持向量机(SVM)等,这些算法在关键基因的识别中提供了极大的帮助。
绝大多数文章使用的机器学习算法至多3到5种,或类型单一没有组合,而本研究突破了这一瓶颈,创新性地组合了常用的一系列机器学习算法,包括LASSO、GBM、RSF、plsRcox、StepCox、SuperPC、ridge、Survival-SVM、CoxBoost和Enet。就像我们通常在LASSO回归之前使用Cox分析一样,作者将RSF、LASSO、CoxBoost、StepCox这些具备降维和变量筛选功能的算法作为第一步,与其他算法组合起来,于是产生了101种不同的机器学习算法组合。
在所有组合中,CoxBoost和GBM组合的mean C-index最高,预测性能最好,因此选择CoxBoost + GBM作为AIDPI模型(图1)。
(此处仅展示Top15算法组合,完整组合请参见文章原文)
Q3:如何充分利用模型,探究对疾病的影响
图2. 基于AIDPI和其他临床病理特征对OSA患者进行生存预测
图3. 高AIDPI组患者的通路分析
Q4:如何利用单细胞数据提升颗粒度,进一步挖掘疾病核心
图4. OSA单细胞数据集分析
Q5:如何寻找关键靶点,与疾病创造关联
根据canSAR数据库,只有MYC和SQLE编码的蛋白具备可药用结构,成为高AIDPI患者的潜在治疗靶点。鉴于众多研究已经表明MYC的表达升高与OSA的不良预后相关,作者选择将重点放在SQLE上,进一步探索其作为治疗靶标的潜力。
图5. OSA中SQLE的过表达与肿瘤进展有关
Q6:如何进行湿实验验证
图6. SQLE沉默在体内外均可阻碍OSA的进展
图7. SQLE沉默可通过降低胆固醇和抑制FAK/PI3K/Akt/mTOR通路来阻止OSA的进展
Q7:如何升华文章,将研究成果应用在疾病治疗中
图8. SQLE抑制剂FR194738可抑制OSA进展并增进化疗疗效
[亮点结论]
本篇文章思路明确,行文结构清晰。
由此推而广之,当将此思路应用于类似问题时,我们需要考虑以下几个方面以优化研究方法:
[*作者写在最后]
非常感谢纽科生物对我的文章做出的解读,并邀请我在这分享一些心得。毕业季的气氛中,我也有诸多感慨和回忆想要分享。
相比上海骨科创新材料领域的其他研究者来说,我的科研成果几乎微不足道。尽管如此,我对自己感到满意,因为我已竭尽全力。每个人的起点不同,可调动的资源也各不相同,短期内的成果自然千差万别。我的满意并非源于文章本身,而是因为我证实了自己的想法是行得通的,我找到了自己的道路。《道德经》中说:“有道无术,术尚可求;有术无道,止于术。”这句古训根据个人经历有着不同的解读。
2017年,我被推免为骨科学术型硕士,但不幸的是,我在临床工作了近2年半,我的实验技能仍停留在本科水平。然而,在不幸中有幸,我有机会在全国最大的骨肿瘤中心之一学习,遇到了许多同龄的骨肉瘤患者。或许是由于我天生的同理心,我渴望找到有效的治疗方法来帮助这些患者,这成了我研究的初衷。因此,我果断将研究方向从骨质疏松转向骨肉瘤。
作为新手的我,所在的课题组也缺乏研究方向和经验。幸运的是,我的导师具有丰富的临床经验,他设计了一套利用临床、影像等指标预测骨肉瘤耐药性的方法,这启发我将这些指标扩展到两万多个个mRNA的表达量,开展数据驱动的研究。这就是我当时找到的“道”。有了这一明确的研究方向,我便开始学习必要的技术。我也曾尝试过建立自己的骨肉瘤多组学数据库,奈何人微言轻,能调动的资源实在有限。我只能转而学习R语言,提升数据挖掘能力,利用公开的数据集开展自己的研究。从2021年开始,我通过在线课程逐步提高自己的生信分析技术,直到2024年2月份才得以发表这一篇文章。尽管有人质疑使用公开数据的价值,也有人认为SQLE在很多肿瘤中都被报道过,缺乏创新性,我却对自己的研究持有不同看法。
我不认同仅追求热门技术的研究方式,也不理解为何“缺乏创新性”的观点会存在。我从未对任何技术抱有过盲目的热情,因为我相信,我们医生的研究应以解决临床问题为核心,将问题拆解成基础科学问题,如果能用最最简单且成熟的技术回答这些问题那就再好不过了。我认为一个研究的创新性在于,我回答了这个问题,且比前人做得更好,这就足够创新。我认为研究中最重要的是逻辑思辨和自我诘问,是条理清晰地讲述自己的故事,这也是研究的乐趣所在。
我相信,每位直接面对患者的医生都有自己的“道”。只要时间足够,他们一定能学会足够的“术”来解决这些问题。如果临床工作太忙,找到一个可靠的团队合作也是一个有效的解决方案。
关于我们
纽科生物提供专业的生物信息学数据分析和高通量测序服务。目前,公司已经和四川大学、复旦大学、上海交通大学、中山医院、华中科技大学等多所医院、高校的研究团队建立了长期良好的合作关系,提供高品质的数据分析和测序服务,帮助客户在European Heart Journal、Circulation Research、Nature Communications等多个著名杂志期刊上发表高水平科研文章,欢迎各位老师前来咨询。