学员表示在参加完我们的马拉松授课后,已经能掌握了我们两个月传授的表达量相关的数据分析:
目前能完成以下分析
## Bulk data
数据清洗,各种注释 (ensemble, entriz, symbol id 转换)
差异分析:deseq2, limma, edgeR, wilcoxon, t-test
富集分析: ORA, GSEA
通路差异:GSVA
免疫浸润:IOBR , 8 种免疫浸润算法。肿瘤微环境分析(stromal score, immune score, 肿瘤纯度)
药敏分析:pRR 与 oncopredict, 以及基于 cellMiner 数据库的相关性分析
相关性分析:pearson, spearman
机器学习相关:logistic, lasso, 单因素/多因素 cox, RSF, log-rank, K-M 生存曲线,最佳 cutoff 的选择, (筛选变量和模型比较一般用 101 种模型组合), ROC 曲线绘制, 非线性模型:RCS
免疫治疗: 基于 imvigor210 队列来建模,根据自己项目中的 risk score 来预测免疫治疗效果 (与药敏分析的极其类似)
WGCNA: 建立表型&基因模块的相关性图,以及筛选 hub gene
## 单细胞
降维分群,以及细分亚群(包含了质控,降维,去批次等基本流程)
Decontex 去除污染细胞
利用基因集打分: AUCell, ucell, addmodulescore
ScMetabolism:代谢通路分析
差异基因:findallmarkers, 以及 SCP 包里的 RUNDEtest
ORA, GSEA 富集分析, GSVA(差异通路)
Monocle2 拟时序
Cellchat
Pyscenic 结合 scenic 。转录调控网络构建;方差分解
palantir 拟时序,并筛选影响differention potential & Branch potential的因子,区分该gene module的dynamic pattern
但学员认为这些数据分析还是偏向于科研文章了,继续在这些技能上面提高熟练度也仅仅是去科研服务公司!所以我让他完成我的一些练习题,被拒绝了:
细胞名字可以不给但是基因名字不能不要啊 单细胞水平看指定基因的表达量差异情况 巨噬细胞极化的打分结果散点图 PDX小鼠模型的单细胞样品定量能选择人类参考基因组吗 一网打尽全部的商业化单细胞数据处理 为什么要挖掘如此小众而且古老的单细胞转录组数据呢
学员提出来了一个灵魂拷问:对于想从事生信行业,想找工作的新手说还能从哪些角度提高自己的生信能力呢呢?比如联合其他技术,使数据量更大、更脱颖而出。
其实我非常理解学员的想法,作为新手很容易沉浸在掌握某些R包或Pipline的成就感中,特别是当身边的人都不太会的时候。但假如自己不是数学或统计学背景出身,或不打算在将来花费大量时间精力去学习数学和统计学。那么我们对编程语言掌握的天花板也就在哪里了,只是会使用一些工具或流程而已。也就是说,我们的技能只是一个工具,如果要进一步突破,那么方向就是自己对生物学问题的理解。
对于新手一方面要掌握更多的分析方法,提升自己的技能。但另一方面,更为重要的是去观察这些数据在文章中到底放了那些分析的结果,在文章中证明了什么,对文章的逻辑有什么贡献。只有这样才能对生信对生物学问题的贡献度的理解。所以数据量多么大,技术多么花哨来脱颖而出永远不是目的,目的永远应该是对生物学问题的解答可靠。
如果是找生信工程师工作(医疗大健康行业)
上面的理解偏重于科研行业相关的岗位,比如各个课题组的研究助理,各个科研服务公司的售前售后生信工程师等等。很多小伙伴可能是想干一些医疗大健康行业的生信工程师,希望我们的生信数据分析能力可以在一些药企,IVD行业发光发热。因为生物信息学对于药企、IVD行业、肿瘤早筛和肿瘤疗法开发等领域的技术进步和创新至关重要。它不仅有助于提高疾病诊断的准确性,还能推动个性化医疗和精准治疗的发展 :
药企和肿瘤疗法开发:
在药企中,生物信息学被用于药物研发的多个阶段,包括药物靶点的识别、药物作用机制的解析、药物反应的预测以及药物安全性评估。例如,通过分析基因表达数据,可以识别与特定疾病相关的生物标志物,这对于开发新的治疗药物至关重要。此外,生物信息学工具也用于分析药物与蛋白质之间的相互作用,这对于设计新药和理解药物作用机制非常重要。
在体外诊断(IVD)行业中,生物信息学的应用正在增长。IVD技术,特别是在分子诊断领域,依赖于生物信息学来分析和解释大量的遗传数据,以实现疾病的早期诊断和精准医疗。例如,通过分析患者的基因组数据,可以识别特定的遗传变异,这对于个性化医疗和精准诊断至关重要。
在肿瘤早筛领域,生物信息学被用来分析液体活检样本中的生物标志物,如循环肿瘤DNA(ctDNA)和循环肿瘤细胞(CTCs)。这些分析有助于早期发现癌症,甚至在症状出现之前。例如,通过分析血液中的ctDNA甲基化模式,可以识别早期癌症的存在。生物信息学工具也用于提高信噪比,从复杂的生物信息中提取出与肿瘤相关的信号。
在肿瘤疗法开发中,生物信息学被用于识别新的治疗靶点、预测药物反应和评估治疗效果。通过分析肿瘤基因组数据,可以发现肿瘤特有的突变和表达模式,这对于开发针对性的治疗方法至关重要。此外,生物信息学也被用于开发和验证预测模型,以预测患者对特定治疗方案的反应。
然后大家会发现,科研技能基本上派不上用场,或者说我们的马拉松授课科研技能太底层了。对于工业界来说,深度完全不够。这就是因为生信不好找工作可是点错了技能树,推荐大家看一下这个2020的书籍:《Bioinformatics for Cancer Immunotherapy》,相信神通广大的小伙伴们是可以自己找到这个书籍的pdf文件。不过呢,对绝大部分还处在科研界的小伙伴来说,这个书籍里面的技能其实没啥子用。
以下是书籍《Bioinformatics for Cancer Immunotherapy》的目录,包括各章节的标题和中文翻译:
Bioinformatics for Cancer Immunotherapy
生物信息学在癌症免疫疗法中的应用An Individualized Approach for Somatic Variant Discovery
个体化体细胞变异发现方法Ensemble-Based Somatic Mutation Calling in Cancer Genomes
基于集成的癌症基因组体细胞突变呼叫SomaticSeq: An Ensemble and Machine Learning Method to Detect Somatic Mutations
SomaticSeq:一种检测体细胞突变的集成和机器学习方法HLA Typing from RNA Sequencing and Applications to Cancer
基于RNA测序的HLA分型及其在癌症中的应用Rapid High-Resolution Typing of Class I HLA Genes by Nanopore Sequencing
通过Nanopore测序快速高分辨率分型I类HLA基因HLApers: HLA Typing and Quantification of Expression with Personalized Index
HLApers:个性化指数的HLA分型和表达量量化High-Throughput MHC I Ligand Prediction Using MHCflurry
使用MHCflurry进行高通量MHC I配体预测In Silico Prediction of Tumor Neoantigens with TIminer
使用TIminer进行肿瘤新抗原的计算机预测OpenVax: An Open-Source Computational Pipeline for Cancer Neoantigen Prediction
OpenVax:一个开源的癌症新抗原预测计算流程Improving MHC-I Ligand Identification by Incorporating Targeted Searches of Mass Spectrometry Data
通过结合靶向质谱数据搜索改进MHC-I配体鉴定The SysteMHC Atlas: a Computational Pipeline, a Website, and a Data Repository for Immunopeptidomic Analyses SysteMHC图谱:一个用于免疫肽组学分析的计算流程、网站和数据存储库
Identification of Epitope-Specific T Cells in T-Cell Receptor Repertoires
在T细胞受体库中识别表位特异性T细胞Modeling and Viewing T Cell Receptors Using TCRmodel and TCR3d
使用TCRmodel和TCR3d建模和可视化T细胞受体In Silico Cell-Type Deconvolution Methods in Cancer Immunotherapy
癌症免疫疗法中的细胞类型反卷积计算方法Immundeconv: An R Package for Unified Access to Computational Methods for Estimating Immune Cell Fractions from Bulk RNA-Sequencing Data
Immunedeconv:一个R包,用于统一访问从批量RNA测序数据估算免疫细胞比例的计算方法EPIC: A Tool to Estimate the Proportions of Different Cell Types from Bulk Gene Expression Data
EPIC:一个从批量基因表达数据估算不同细胞类型比例的工具Computational Deconvolution of Tumor-Infiltrating Immune Components with Bulk Tumor Gene Expression Data
使用批量肿瘤基因表达数据计算反卷积肿瘤浸润性免疫组分Cell-Type Enrichment Analysis of Bulk Transcriptomes Using xCell
使用xCell分析批量转录组的细胞类型富集Cap Analysis of Gene Expression (CAGE): A Quantitative and Genome-Wide Assay of Transcription Start Sites
基因表达帽分析(CAGE):一个定量的全基因组转录起始位点分析
这些章节涵盖了从体细胞变异发现、HLA分型、新抗原预测、T细胞受体库分析,到免疫细胞类型的反卷积分析等多个方面,为癌症免疫疗法的生物信息学研究提供了全面的理论和实践指导。
难道说偏重于科研技能教学的授课就没意义了吗
大家可能发现了,工业界需要的很多技能更小众,更深入。这就是为什么大家掌握了我们马拉松授课的表达量相关技能,从表达量芯片到转录组测序到单细胞转录组,都只能说是做一下生信科研文章而已。但是这并不能说说偏重于科研技能教学的授课就没意义了,毕竟是千里之行始于足下啊!
如果你也想做单细胞转录组数据分析,最好是有自己的计算机资源哦,比如我们的2024的共享服务器交个朋友福利价仍然是800,而且还需要有基本的生物信息学基础,也可以看看我们的生物信息学马拉松授课(买一得五) ,你的生物信息学入门课。
如果你已经熟悉了我们的课程,就联系我们报名吧~
(添加好友务必备注 高校或者工作单位+姓名+马拉松,方便后续认识)
生信入门班:
学习以转录组数据为代表的组学数据分析,包括上游分析(从下机数据到表达矩阵)和下游分析(差异分析、富集分析等),无专业偏向性,顺带学习基因表达芯片。
R语言是为下游分析打基础,linux是为上游分析打基础。
数据挖掘班:
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图,专业偏向医学(部分涉及肿瘤,但医学非肿瘤专业也适配),包含机器学习算法构建分类模型与生存模型,多篇文献讲解和文章复现。全程使用R语言,不学习linux(因为不学上游分析)
详细比较如下:
报名时间
每个月滚动开课,随时可报名,如果错过了当月课程开始时间,可以选择插班或者报名下个月课程。
授课时间和方式
生信入门班:
12月2日起,连续4个星期,每个星期5天,前三周上课时间为每天晚上7:30-10:30,第四周上课时间为每天晚上8:00-11:00(北京时间)。
数据挖掘班:
12月2日起,连续3个星期,每个星期5天,上课时间为每天晚上7:30-10:30(北京时间),具体日期见下图日历。
钉钉群线上直播互动授课(当天错过了可以看回放,一年内无限制回看),直播期间穿插练习,讲练结合,充分互动,强调在实战中进步。讲师分章节在线授课及答疑,突发情况可在线求助我们的助教团队,课堂进度也会根据学员们的理解程度灵活作调整。
新增每个月一次的讲师直播答疑,让没有时间听直播、后来补课的学生也可以得到直播指导;课程有重大更新时,会喊毕业学员回来补课,所以其实课程远远不止45小时/60小时,我们的诚意十足!