思路跟学，毕业不愁！郑州大学二区SCI：机器学习+单细胞，纯生信so easy！

文摘科学 2024-07-07 18:01 上海

近年来，由于生物医学领域的众多研究努力和突破，从个人和生物实验中产生的数据的数量和复杂性显著增加，为精准医疗带来了机遇和挑战。机器学习是一种人工智能技术，使计算机能够从大规模的数据特征中学习，识别特定的模式，并自动发现不同对象之间的相关性和差异，有助于快速构建诊断和预后模型，并且通常表现出良好的预测性能！

今天，老方分享一篇应用机器学习算法的纯生信SCI，一起看看吧~

1. 机器学习。该研究利用3种机器学习算法（SVM-SHAP，XGBoost、RF）构建诊断模型，并基于混淆矩阵、准确率（ACC）、召回率（REC）、F1评分和ROC曲线的曲线下面积（AUC）对模型的性能进行综合评估。机器学习是SCI发文的热门主题，亦是该文的一大亮点！

2. 单细胞分析。该研究通过单细胞分析在卵巢癌（OC）中鉴定了一个新癌症相关成纤维细胞（CAF）亚群，并被其命名为“SFRP2+成纤维细胞”。从单细胞水平进行研究，对于疾病机制研究具有重大意义！

3. 泛癌分析。该研究通过泛癌分析证明CAF富集水平与肿瘤患者生存风险之间的相关性，与重要基因表达水平之间的相关性。泛癌分析把范围放大，让研究更广，从更高的角度看问题！

（PS：机器学习持续火爆，想利用这一创新方法做研究的朋友，欢迎找老方设计思路、定制分析~）

方案设计
生信分析
服务器租赁

题目：鉴定机器学习模型和作为卵巢癌精准医学预测因子的新型SFRP2+成纤维细胞特征

杂志：International Journal of Molecular Sciences

发表时间：2023年11月

研究背景

OC是影响女性生殖器官的常见诊断疾病，治疗通常包括手术干预、放疗或化疗，由于在其早期阶段没有明显的症状，在这个阶段检测OC是非常具有挑战性的。大多数OC病例在晚期被诊断出来，这大大降低了治愈性治疗的有效性，故开发能够准确诊断早期OC的临床生物标志物和稳健的预测模型是当务之急。

数据来源

数据集/队列	数据库	数据类型	详细信息
GSE9891	GEO	微阵列	285个卵巢样本
GSE26193	GEO	微阵列	高级别卵巢腺癌样本
GSE154600	GEO	RNA-seq数据	5例高级别浆液性卵巢癌
EMTAB8107	EMTAB	scRNA-seq数据	/

另外，泛癌症突变负担数据、泛癌症突变信息数据、泛癌症RNA-seq表达矩阵数据和泛癌症临床信息来自Github数据库。

研究思路

首先，通过3种可解释的机器学习算法构建诊断模型，并进行性能分析。其次，研究了来自3模型的12个重叠基因在确定OC预后及其在成纤维细胞亚群定位中的性能。最后，评估了一个独特的成纤维细胞特征，其在预测ICI反应和检测泛癌TP53突变中的作用。

主要结果

1. DEG的筛选和分析

通过差异表达基因（DEG）分析，在GSE9891中鉴定了254个DEG，在GSE26193中鉴定了255个DEG；通过Veen分析来鉴定了81个重叠DEG，包括35个上调基因和46个下调基因。通过基因本体论（GO）分析发现，DEGs显著富集于含胶原的细胞外基质、细胞外结构组织、细胞外基质组织和外部包封结构组织；通过京都基因和基因组百科全书（KEGG）分析发现，DEGs显著富集于丙型肝炎、蛋白质消化和吸收等通路（图1A-B）。通过STRING数据库构建蛋白质-蛋白质相互作用（PPI）网络（图1C）。

图1 重叠DEG的功能富集分析结果

2. 12个DEG作为早期OC诊断标志物的筛选

通过3种可解释的机器学习算法（SVM-SHAP，XGBoost、RF）构建模型，通过ROC曲线的曲线下面积（AUC）等评估机器学习模型的性能，发现这些模型在临床实践中诊断I期卵巢癌可能具有良好的实用性。进一步筛选出前30个重要特征基因，其中12个DEG是3种算法重要的重叠基因（图2）。

图2 使用不同机器学习算法筛选的特征基因及这些基因表达水平的差异

通过ROC曲线评估12个特征基因作为生物标志物对判断卵巢癌患者肿瘤是否会转移到卵巢外的诊断价值，发现AGR2、TFF3、TESC、IFIT1、TGFA、DLK1、POR4、SERPINE1、SCGB2A2和SFRP2可以独立地预测肿瘤是否位于卵巢或输卵管中（图3）。

图3 12个特征基因的ROC曲线

3. SFRP2、SERPINE1与CAF密切相关，并与中晚期OC患者的总生存期相关

通过泛癌分析发现CAF丰度是影响OC患者的总体存活率的风险因素（图4A），在12个特征基因中SFRP2和SERPINE 1显示出与CAF富集水平的正相关性（图4B-C）。通过Kaplan-Meier生存分析发现SFRP2和SERPINE1高表达与OC低存活率相关（图4 E-F）。

图4 三个特征基因与CAF的共富集和Kaplan-Meier生存分析

4. SFRP2可能是一个独特的CAF亚群

通过单样本基因集富集分析（ssGSEA），发现SFRP2在两个独立的数据集中成纤维细胞、肌成纤维细胞亚群中高度表达（图5A-B）。通过单细胞分析鉴定了具有最高富集的SFRP2和CAF标志物（C0L6A1、C0L6A2、FAP）的新子集（图5C-F）。以上结果表明，存在不同的CAF亚组，将其命名为“SFRP2+成纤维细胞”。

图5 通过单细胞分析在OC中鉴定新的CAF子集

5. SFRP2+成纤维细胞特征在预测免疫检查点抑制剂（ICI）反应和检测泛癌TP53突变中的贡献

通过肿瘤免疫功能障碍和排斥（TIDE）分析，发现具有较高SFRP2+成纤维细胞富集水平的OC患者主要出现在ICI无应答者中，而较低SFRP2+成纤维细胞富集水平主要出现在ICI应答者中；两组间的TIDE评分、功能障碍评分、排除评分和CAF评分差异显著（图6A-B）。构建基于SFRP2+成纤维细胞特征的人工神经网络模型，该模型在测试数据集中表现出优异的性能，用以区分携带TP53突变的患者和不携带TP53突变的患者（图6C-D）。

图6来自SFRP2+成纤维细胞的前100个特异性基因，用于预测ICI反应和癌基因突变

文章小结

该研究基于SVM-SHAP、XGBoost和RF的模型能够早期检测OC，用于临床决策，诊断模型中使用的SFRP2+成纤维细胞特征可以为OC治疗选择提供信息，并提供泛癌TP53突变检测。PS：想要复现思路的朋友，欢迎找老方定制分析~

老方有话说

老方会持续为大家带来最新生信思路，并提供免费思路评估、付费方案设计、生信分析、实验项目实施等服务，感兴趣的朋友可以扫码咨询！

方案设计

生信分析

服务器租赁

2、机器学习助攻！创新性UP！湖南中医药大学二区SCI：机器学习+网络药理学+分子对接，干湿思路更受审稿人青睐！

3、久坐伤胃？孟德尔随机化证据来了！浙大二院等9分+SCI：单变量MR+多变量MR+中介分析，2图2表拿下一区！

http://mp.weixin.qq.com/s?__biz=MzkxNDY0OTA0Mw==&mid=2247487119&idx=1&sn=62d1ba7d37d707d8e51c5b3186d805e0

生信魔方

持续更新生信思路，生信魔方提供专业服务：定制个性化生信分析、服务器租赁等…

年轻有为！36岁，优青、杰青、副院长！2024年势如破竹，发文9篇，累计影响因子200 +！

出息了，我的宝！硕士共一勇夺27.7分Cell大子刊，西南医科大学“乳酸化+线粒体转运”的课题思路一骑绝尘！乳酸化修饰真的全面！

生信大神都在用的生信服务器，好东西值得试试，双十一入手超划算！

单细胞联合空间转录组，牢牢锁定6分+SCI！干湿思路大趋势，速来学习~

贵在神速，2个月接收！高效之选孟德尔随机化！BMC系列旗舰期刊：双向双样本MR+SMR+单细胞，Get共病探索新思路！

揭秘：如何用生信文献热点复现服务实现不延毕早晋升？

快到飞起！2个月接收！传统中医药也可以！中国医科大学：中药复方+网络药理学+分子对接+实验验证，干湿结合助推机制研究！

0实验、纯生信、6分/Q1！上海市第十人民医院等：线粒体+多组学+机器学习+孟德尔随机化，最新热点都在这里！

大道至简！临床适用性强才是好研究！中南大学湘雅第二医院等：机器学习+单细胞+预后模型，只有少许实验~

北大院士的优秀生信代码公开分享！“单细胞测序+空转”双管齐下，分析思路就压你一头，拿下NC轻而易举！

后浪如此强劲！首批本科生获国自然项目！祝贺各大试点高校！

实验无趣？转生信！揭秘师弟如何租大容量天狼云服务器翻盘

一审只要9天，中医药研究就投它！上海中医药大学：网络药理学+分子对接+实验验证，轻松复现绝佳之选！

机器学习这么好使？3个月喜提10分+SCI！福建医科大学附属第一医院：线粒体+细胞死亡+机器学习+单细胞，一区SCI收入囊中！

揭秘：如何用生信文献热点复现服务实现不延毕早晋升？

录用率高达75%，国人友好，最快不到一个月即可接受！妥妥的毕业晋升神刊！更有中国工程院院士担任名誉主编，还有多位国人任编辑~

独享服务器拼团，优惠力度空前，立即行动！

多组学联合分析更有优势！广西医科大学第一附属医院：自有队列+公共队列，这波发文思路果断跟！思路学到，6分+SCI不在话下！

25天接受的0实验“网络药理学”长啥样？四川大学华西医院：网药+机器学习+分子对接，用它快准狠！

NC/14.7：机器学习模型揭示了配体-受体相互作用的广泛下调，这增强了对免疫检查点阻断产生耐药性的黑色素瘤中的淋巴细胞浸润

实验无趣？转生信！揭秘师弟如何租大容量天狼云服务器翻盘

十投九中+纯生信友好=神刊！复旦肿瘤医院李大卫团队2区6分模板文，单细胞数据挖掘+乳酸化修饰，科研人错过血亏！

无敌了，这多组学思路发12分都嫌低！GBD分析+孟德尔随机化+NHANES分析+网络毒理学+代谢组学，江南大学团队新作太全面了！

网络药理学纯生信，25天接受，泰裤辣！毕业神刊审稿快如闪电！网药+分子对接+机器学习拿下Q1区，中医药发文利器，用它快准狠！

哦买嘎，0实验网络药理学，17天接受！晋升神刊简直快到飞起！网药+分子对接+分子动力学模拟，中医药绝妙思路墙裂推荐！

跃升有招，孟德尔随机化太强了！10分+药靶MR思路：代谢组学+蛋白质组学+MR，想发高分快码住！

为什么搞科研你没有动力？

药学类沾边就收，这本救命神刊已被“On Hold”！网络药理学+分子对接+分子动力学模拟，这篇中医药研究思路仍具借鉴价值！

延迟退休？看看58.7分Nature子刊怎么评！华中科技大学：论影响力，用国产数据库CHARLS也靠谱！深度好文，值得细品！

昔日超级毕业神刊，已被踢出SCI，彻底凉凉！再次提醒：“On Hold”有风险，投稿需谨慎！

独享服务器拼团，优惠力度空前，立即行动！

国产之光“CHARLS数据库”，带你摆脱收集资料困扰！中国医科大学团队开挂之作不容错过！

仅Logistic回归+RCS分析，1图2表拿下BMC系列期刊！浙江大学医学院附属邵逸夫医院：NHANES数据库，好用到爆！

Q1/IF 10.7，中南大学湘雅医院等：USP22通过靶向SIRT1/PTEN/PI3K信号通路控制黑色素瘤转移和铁死亡易感性

实验无趣？转生信！揭秘师弟如何租大容量天狼云服务器翻盘

纯生信修回，审稿人要求补充验证实验，我该怎么办？

这么新的MR发文思路，普通人能想到？复旦大学郑英杰团队：多种孟德尔随机化方法大荟萃，3图斩获8分+，2个月接受

从临床到生信：医生们 “躺平式” 发文新打法，干湿结合的侧重点该如何把握？

“成纤维细胞”风头正劲？！单细胞+空间转录组学，强强联合！公共数据玩转细胞互作，凭实力拿下6分+SCI！

实验无趣？转生信！揭秘师弟如何租大容量天狼云服务器翻盘

不是测序做不起，而是公共数据更有性价比！3个月拿下一区SCI！单细胞分析+疾病分型+预后模型，思路值得参考！

生信分析结果用qPCR或WB验证不出来，我该怎么办？

慎投！北京某三甲医院公布2024年高中风险预警期刊目录，中科院1区Top期刊上榜！

实验无趣？转生信！揭秘师弟如何租大容量天狼云服务器翻盘

2图2表3个月拿下Lancet子刊！这篇孟德尔随机化，我服！中国科学院等：线性+非线性MR，方法用对，发文快人一步！

绝！阴性结果发一区SCI！皖南医学院：UKB数据库+孟德尔随机化，这数据用得，这方法使得，一看一个不吱声！

11.7分中医药单体研究，期刊好VS方案好？中国药科大学等：中药单体+铁死亡+网络药理学+机器学习，干湿思路上大分！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉