生信不好找工作可能是因为你点错了技能树

学术 2024-11-20 09:05 广东

学员表示在参加完我们的马拉松授课后，已经能掌握了我们两个月传授的表达量相关的数据分析：

目前能完成以下分析
## Bulk data
数据清洗，各种注释 (ensemble, entriz, symbol id 转换)
差异分析：deseq2, limma, edgeR, wilcoxon, t-test
富集分析: ORA， GSEA
通路差异:GSVA
免疫浸润：IOBR ， 8 种免疫浸润算法。肿瘤微环境分析（stromal score, immune score, 肿瘤纯度）
药敏分析：pRR 与 oncopredict, 以及基于 cellMiner 数据库的相关性分析
相关性分析：pearson, spearman
机器学习相关：logistic, lasso, 单因素/多因素 cox, RSF, log-rank, K-M 生存曲线，最佳 cutoff 的选择,  (筛选变量和模型比较一般用 101 种模型组合)， ROC 曲线绘制,  非线性模型：RCS
免疫治疗： 基于 imvigor210 队列来建模，根据自己项目中的 risk score 来预测免疫治疗效果 (与药敏分析的极其类似)
WGCNA: 建立表型&基因模块的相关性图，以及筛选 hub gene

## 单细胞
降维分群，以及细分亚群（包含了质控，降维，去批次等基本流程）
Decontex 去除污染细胞
利用基因集打分: AUCell, ucell, addmodulescore
ScMetabolism：代谢通路分析
差异基因：findallmarkers, 以及 SCP 包里的 RUNDEtest
ORA, GSEA 富集分析, GSVA（差异通路）
Monocle2 拟时序
Cellchat
Pyscenic 结合 scenic 。转录调控网络构建；方差分解
palantir 拟时序，并筛选影响differention potential & Branch potential的因子，区分该gene module的dynamic pattern

但学员认为这些数据分析还是偏向于科研文章了，继续在这些技能上面提高熟练度也仅仅是去科研服务公司！所以我让他完成我的一些练习题，被拒绝了：

学员提出来了一个灵魂拷问：对于想从事生信行业，想找工作的新手说还能从哪些角度提高自己的生信能力呢呢？比如联合其他技术，使数据量更大、更脱颖而出。

其实我非常理解学员的想法，作为新手很容易沉浸在掌握某些R包或Pipline的成就感中，特别是当身边的人都不太会的时候。但假如自己不是数学或统计学背景出身，或不打算在将来花费大量时间精力去学习数学和统计学。那么我们对编程语言掌握的天花板也就在哪里了，只是会使用一些工具或流程而已。也就是说，我们的技能只是一个工具，如果要进一步突破，那么方向就是自己对生物学问题的理解。

对于新手一方面要掌握更多的分析方法，提升自己的技能。但另一方面，更为重要的是去观察这些数据在文章中到底放了那些分析的结果，在文章中证明了什么，对文章的逻辑有什么贡献。只有这样才能对生信对生物学问题的贡献度的理解。所以数据量多么大，技术多么花哨来脱颖而出永远不是目的，目的永远应该是对生物学问题的解答可靠。

如果是找生信工程师工作（医疗大健康行业）

上面的理解偏重于科研行业相关的岗位，比如各个课题组的研究助理，各个科研服务公司的售前售后生信工程师等等。很多小伙伴可能是想干一些医疗大健康行业的生信工程师，希望我们的生信数据分析能力可以在一些药企，IVD行业发光发热。因为生物信息学对于药企、IVD行业、肿瘤早筛和肿瘤疗法开发等领域的技术进步和创新至关重要。它不仅有助于提高疾病诊断的准确性，还能推动个性化医疗和精准治疗的发展：

药企和肿瘤疗法开发：

在药企中，生物信息学被用于药物研发的多个阶段，包括药物靶点的识别、药物作用机制的解析、药物反应的预测以及药物安全性评估。例如，通过分析基因表达数据，可以识别与特定疾病相关的生物标志物，这对于开发新的治疗药物至关重要。此外，生物信息学工具也用于分析药物与蛋白质之间的相互作用，这对于设计新药和理解药物作用机制非常重要。

IVD行业：

在体外诊断（IVD）行业中，生物信息学的应用正在增长。IVD技术，特别是在分子诊断领域，依赖于生物信息学来分析和解释大量的遗传数据，以实现疾病的早期诊断和精准医疗。例如，通过分析患者的基因组数据，可以识别特定的遗传变异，这对于个性化医疗和精准诊断至关重要。

肿瘤早筛：

在肿瘤早筛领域，生物信息学被用来分析液体活检样本中的生物标志物，如循环肿瘤DNA（ctDNA）和循环肿瘤细胞（CTCs）。这些分析有助于早期发现癌症，甚至在症状出现之前。例如，通过分析血液中的ctDNA甲基化模式，可以识别早期癌症的存在。生物信息学工具也用于提高信噪比，从复杂的生物信息中提取出与肿瘤相关的信号。

肿瘤疗法开发：

在肿瘤疗法开发中，生物信息学被用于识别新的治疗靶点、预测药物反应和评估治疗效果。通过分析肿瘤基因组数据，可以发现肿瘤特有的突变和表达模式，这对于开发针对性的治疗方法至关重要。此外，生物信息学也被用于开发和验证预测模型，以预测患者对特定治疗方案的反应。

然后大家会发现，科研技能基本上派不上用场，或者说我们的马拉松授课科研技能太底层了。对于工业界来说，深度完全不够。这就是因为生信不好找工作可是点错了技能树，推荐大家看一下这个2020的书籍：《Bioinformatics for Cancer Immunotherapy》，相信神通广大的小伙伴们是可以自己找到这个书籍的pdf文件。不过呢，对绝大部分还处在科研界的小伙伴来说，这个书籍里面的技能其实没啥子用。

以下是书籍《Bioinformatics for Cancer Immunotherapy》的目录，包括各章节的标题和中文翻译：

Bioinformatics for Cancer Immunotherapy
生物信息学在癌症免疫疗法中的应用
An Individualized Approach for Somatic Variant Discovery
个体化体细胞变异发现方法
Ensemble-Based Somatic Mutation Calling in Cancer Genomes
基于集成的癌症基因组体细胞突变呼叫
SomaticSeq: An Ensemble and Machine Learning Method to Detect Somatic Mutations
SomaticSeq：一种检测体细胞突变的集成和机器学习方法
HLA Typing from RNA Sequencing and Applications to Cancer
基于RNA测序的HLA分型及其在癌症中的应用
Rapid High-Resolution Typing of Class I HLA Genes by Nanopore Sequencing
通过Nanopore测序快速高分辨率分型I类HLA基因
HLApers: HLA Typing and Quantification of Expression with Personalized Index
HLApers：个性化指数的HLA分型和表达量量化
High-Throughput MHC I Ligand Prediction Using MHCflurry
使用MHCflurry进行高通量MHC I配体预测
In Silico Prediction of Tumor Neoantigens with TIminer
使用TIminer进行肿瘤新抗原的计算机预测
OpenVax: An Open-Source Computational Pipeline for Cancer Neoantigen Prediction
OpenVax：一个开源的癌症新抗原预测计算流程
Improving MHC-I Ligand Identification by Incorporating Targeted Searches of Mass Spectrometry Data
通过结合靶向质谱数据搜索改进MHC-I配体鉴定
The SysteMHC Atlas: a Computational Pipeline, a Website, and a Data Repository for Immunopeptidomic Analyses SysteMHC图谱：一个用于免疫肽组学分析的计算流程、网站和数据存储库
Identification of Epitope-Specific T Cells in T-Cell Receptor Repertoires
在T细胞受体库中识别表位特异性T细胞
Modeling and Viewing T Cell Receptors Using TCRmodel and TCR3d
使用TCRmodel和TCR3d建模和可视化T细胞受体
In Silico Cell-Type Deconvolution Methods in Cancer Immunotherapy
癌症免疫疗法中的细胞类型反卷积计算方法
Immundeconv: An R Package for Unified Access to Computational Methods for Estimating Immune Cell Fractions from Bulk RNA-Sequencing Data
Immunedeconv：一个R包，用于统一访问从批量RNA测序数据估算免疫细胞比例的计算方法
EPIC: A Tool to Estimate the Proportions of Different Cell Types from Bulk Gene Expression Data
EPIC：一个从批量基因表达数据估算不同细胞类型比例的工具
Computational Deconvolution of Tumor-Infiltrating Immune Components with Bulk Tumor Gene Expression Data
使用批量肿瘤基因表达数据计算反卷积肿瘤浸润性免疫组分
Cell-Type Enrichment Analysis of Bulk Transcriptomes Using xCell
使用xCell分析批量转录组的细胞类型富集
Cap Analysis of Gene Expression (CAGE): A Quantitative and Genome-Wide Assay of Transcription Start Sites
基因表达帽分析（CAGE）：一个定量的全基因组转录起始位点分析

这些章节涵盖了从体细胞变异发现、HLA分型、新抗原预测、T细胞受体库分析，到免疫细胞类型的反卷积分析等多个方面，为癌症免疫疗法的生物信息学研究提供了全面的理论和实践指导。

难道说偏重于科研技能教学的授课就没意义了吗

大家可能发现了，工业界需要的很多技能更小众，更深入。这就是为什么大家掌握了我们马拉松授课的表达量相关技能，从表达量芯片到转录组测序到单细胞转录组，都只能说是做一下生信科研文章而已。但是这并不能说说偏重于科研技能教学的授课就没意义了，毕竟是千里之行始于足下啊！

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。

如果你已经熟悉了我们的课程，就联系我们报名吧~
（添加好友务必备注高校或者工作单位+姓名+马拉松，方便后续认识）

生信入门班：
学习以转录组数据为代表的组学数据分析，包括上游分析（从下机数据到表达矩阵）和下游分析（差异分析、富集分析等），无专业偏向性，顺带学习基因表达芯片。
R语言是为下游分析打基础，linux是为上游分析打基础。

数据挖掘班：
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图，专业偏向医学（部分涉及肿瘤，但医学非肿瘤专业也适配），包含机器学习算法构建分类模型与生存模型，多篇文献讲解和文章复现。全程使用R语言，不学习linux（因为不学上游分析）

详细比较如下：

报名时间

每个月滚动开课，随时可报名，如果错过了当月课程开始时间，可以选择插班或者报名下个月课程。

授课时间和方式

生信入门班：
12月2日起，连续4个星期，每个星期5天，前三周上课时间为每天晚上7:30-10:30，第四周上课时间为每天晚上8:00-11:00（北京时间）。

数据挖掘班：
12月2日起，连续3个星期，每个星期5天，上课时间为每天晚上7:30-10:30（北京时间），具体日期见下图日历。

钉钉群线上直播互动授课（当天错过了可以看回放，一年内无限制回看），直播期间穿插练习，讲练结合，充分互动，强调在实战中进步。讲师分章节在线授课及答疑，突发情况可在线求助我们的助教团队，课堂进度也会根据学员们的理解程度灵活作调整。

新增每个月一次的讲师直播答疑，让没有时间听直播、后来补课的学生也可以得到直播指导；课程有重大更新时，会喊毕业学员回来补课，所以其实课程远远不止45小时/60小时，我们的诚意十足！

http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247535163&idx=1&sn=952dfc44869322b1a8d3abdfb789f87f

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

生信不好找工作可能是因为你点错了技能树

单细胞转录组实验设计如何定位到目标基因（两分组，仅4个单细胞样品）

读悉达多·穆克吉新作《细胞传》

生信入门&数据挖掘线上直播课12月班

2天线下加上5天线上的单细胞及表观调控多组学大课通通免费！

应用类脑组织和CRISPR 基因编辑和筛选技术，探索神经发育性疾病（贝勒医学院的孟祥玲课题组诚聘博士后和研究助理）

做60个10x技术的单细胞转录组样品就为了证明测序仪不重要？

无论怎么做都是错误的单细胞水平相关性分析

西北工业大学生态环境学院第十三届翱翔青年学者论坛诚邀全球英才参会

不要简单的相信作者提供的表达量矩阵

居然是协和的硕博士最喜欢使用单细胞技术？

数据分析思维之分而治之

每天学生信超过10小时的大佬整理的转录组流程

在R编程环节有所限制未必不是好事

从选对电脑开启你的生信之旅（这个双十一换个趁手武器吧）

生信基本功：起码安装和熟练使用100款工具软件

中国农业科学院兰州兽医研究所公开招聘生物信息专业人才（硕士，有编制）

扎克伯格背刺基于R语言的Seurat单细胞生态

miRNA测序数据的上游定量流程实战演练

生物信息学在肿瘤精准治疗中的研究进展线上学术研讨会（11月8日晚8点举办珠江肿瘤转化研究论坛（第一期））

关门聊天 | 生信茶话会，有趣的人生经历

免费的单细胞及表观调控多组学线下授课你还不来？

人工智能大模型会以为是错误的PCA图

同一个样品会做多次单细胞转录组测序？

你希望遇到这样的讲师吗？

安装不上github的包不一定是网络问题

听说有人在b站刷弹幕骂我

2024年09月_生信入门班_微信群答疑笔记

Biomamba生信基地招聘启事

抽丝剥茧解决共享服务器的R包依赖问题（以xCell为例）

国际认知障碍学术会议，线上线下同步参会邀请函（2024年11月9日-10日）

“用户视角”的生物软件开发与社区维护 | 10月31日19:00线上互动分享

小提琴图有点无图是何缘由？

浙江大学良渚实验室熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

基于VlnPlot参数及ggplot2美化小提琴图

VlnPlot结果及常用参数浅析

玩转服务器—共享服务器登录指北

Cell、Science等作者齐聚，华大时空组学邀您共享学术盛宴

生物信息学的12大期刊的2024中科院分区更新版

ggalign-瀑布图

重要的并不是整合与否，而应该是质量控制

当然是一模一样啊

2024年08月_生信入门班_微信群答疑笔记

中国医学科学院（北京协和医学院）血液学研究所/饶书权课题组招聘

探索一下go数据库的层次分级情况

生信入门&数据挖掘线上直播课11月班

为什么我敢肯定这个单细胞转录组公共数据集肯定是没有提供线粒体基因信息

数据分析能力确实是跟能发表的期刊质量有关

千呼万唤，让我们长沙线下约起（这周六日见）

再不学生信就来不及了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉