花了几十万做测序和组学,拿到一堆数据后,怎么用好发篇大文章?

学术   科学   2024-07-19 16:02   上海  

微信公众号又改版啦,
星标小张聊科研,关注更多科研推文!

最近已经结束从RNA-Seq数据设计5个课题的4期主题(相关文章见:(终篇)当导师只给我一个RNA-Seq数据,我是怎么设计出5个课题的,单细胞测序数据的主题也已经开始了1期(相关文章见:当导师只给我一个单细胞测序数据,我是怎么设计4个课题的……

但有咨询说:别说后面的几个课题了,前面花了几十万做的测序和组学数据,到现在还在手里压着呢,数据都没看懂,更别说当时预期发10+,甚至20+的文章了……

讨论下来,发现大多数的问题有几个:

  1. 实验设计有问题比如没有对照组,或者没有合适的对照组,因此没法分析。只有疾病组,没有正常、处理组等;或者临床样本数量不多,但是变量比样本数还多,导致没法讲清楚:一共有5个样本,但是有4男(或女)1女(男),年龄分布有70+、50+还有20+多,还有基础病和治疗方案等不同,这样就导致变量太多,连亚组分析都没法做,或者挑选样本都没法做到;

  2. 基于原先设计的文章被抢发。这个原因是最常见的,如果在做测序之前确定测序方案的时候思考这个问题,文章被抢发的概率就会小很多,或者被抢发后就不会完全没有应对策略:我的实验设计有没有门槛?如果没有门槛,我能在多长时间内发出来?换句话说,做组学发大文章不仅适合经费和样本多的团队,一个专业高效的团队同样重要;

  3. 数据太多太杂,看不明白数据,因此不能判断数据哪些是与预期一样,哪些可能是新的发现;

  4. 如果是新的发现,该通过哪些分析和实验验证这些发现,特别是先做哪些分析,再做哪些实验,以及这些发现的重要性和验证难度。

当然,还有一个最重要的原因:我们容易把发表在某个期刊的一项研究“模板化”,也就是说:既然发表某期刊的某项研究是这么做的,我用类似的方式做,也能发表在这个(档次的)期刊上。虽然从某种程度上通过看文献学习研究思路很重要,但实际上拿到数据后,情况完全不是这么一回事。说的再通俗一些:我们很难通过看一套视频就掌握某项技能。因为实验结果和数据多数情况下都很难与我们预期完全相同,即使是一个疾病,不同的团队做的组学数据都会有很大差别。

所以,虽然我们看文献的时候很简单,故事线一目了然,逻辑丝滑顺畅,几乎所有结果都是很符合预期进行下来;但真正做研究的时候,困难要多太多了,多数情况下需要面对的是结果不符合预期、判断、假设、探索假设以及探索失败。所以,虽然我们看到文献里面是一条线的故事,但实际上是多条线都探索后发现只有一条线可行:

这也是为什么项目最终执行的费用一般要把原先的预算乘以2,甚至乘以3的原因,当然这里的预算是按照完全顺利来进行的预算,就是为了解决科研风险和容错率的问题。

好,既然分析了常见的原因,下面我就遇到的问题说一下解决方案和比较重要的原则:

1. 在做组学之前,一定要做好设计!

把这一点放在首要的位置,是因为设计如果没有做好,后续要通过分析来用好数据要花几倍的功夫,以应对审稿人的意见。甚至有少数情况下,设计有严重缺陷是没法通过分析来拯救的。虽然临床样本和信息部分不用完全到RCT临床试验的标准,但是一些基本问题都要考虑好研究主题、分组、重复、样本量、混杂因素、基线、样本类型、适用技术、技术优劣势、临床信息采集哪些、有没有阳性和阴性对照等等,这些设计不严谨的问题是导致结论有缺陷甚至瑕疵,从而导致文章直接被拒稿的原因;

2. 一定要快!

这一点是仅次于研究设计的,因为类似主题可能同时(保守估计)有3、4个团队在做,人家可能团队比我们强、通讯作者帽子比我们大、样本和经费比我们多、单位比我们好、跟杂志社关系还比我们好,所以如果我们拿到大样本的组学数据,一定要快,哪怕是研究本身不是特别完善,也要去抢领域的第一篇文章,只要我们期望不是特别高,发一区文章的难度要远低于其它类型的研究。当然,这点比较适用于一般的团队,大佬团队有的是办法比我们晚投,但比我们早发出来;

3. 不要想当然的认为别人做了这些研究能发这个期刊,就认为我们也可以。

这一点相信大家自己投稿过的就有感触,其中原因很多:比如看到案例的研究在3年前投稿的时候创新性还可以,等我们看到的时候已经烂大街了;再比如,我们看到的是研究本身简单,我们不知道的是杂志社向通讯作者邀稿的事情等等。当然,如果大家看到一个你心目中很好的期刊发了一篇大家很难从研究本身找到亮点的研究时,就要稍微注意了,没必要迷信某个期刊或者某项研究。

4. 仔细认真的研究自己的数据,然后是查文章。

这一点真的很重要,很多人搞错了。我们之所以从自己的数据里面理不出思路来,原因就是一开始搞错了顺序:我先看这篇文章,发现A主题或者热点很好,然后从自己的数据里面找是不是可以做A主题;然后看到另外一篇文章,发现B主题或者热点很好,然后从自己的数据里面找是不是可以做B主题……;结果看的越多越迷糊,最后时间花了很多,要么类似主题的被发了,要么结果迟迟出不来……

所以要仔细认真的研究自己的数据,并且把以下几个问题列出来:

  1. (在数据质控合格的前提下)哪些结果与我的预期和文献报道是一致?

  2. 哪些结果是我的预期和文献里面没有报道的?为什么会有这个结果:这个结果是实验的问题(比如取样、测序)导致的(这里要排除),还是一个可能的新发现(现象)?

  3. 如果是一个新发现(现象),别的研究或者其它实验能验证这个新发现(现象)吗?

  4. 如果能证实这个新发现(现象),那这个新发现(现象)与我们研究主题的关系是什么?;

  5. 最后,为什么之前别人没有提到这个新发现(现象),是不重要,还是说这个新发现(现象)需要在特定条件下才存在,而我的样本中偶然符合了这个条件?

  6. 如果需要这个条件才存在这个新发现(现象),就可以进一步验证这个猜想。

下面我们用直接用例子说明(假设):

1.(在数据质控合格的前提下)哪些结果与我的预期和文献报道是一致?

在结直肠癌组织的单细胞测序结果中,发现肿瘤细胞中与细胞死亡、细胞增殖等肿瘤恶性表型有关的基因和通路异常,这是符合预期的1;在看基质细胞时,发现成纤维细胞中有一群新的细胞群——F4,这群细胞有个特征具有抗原处理呈递能力,觉得很奇怪,结果一查文献发现确实有这么一群细胞(apCAFs,antigen-presenting cancer-associated fibroblasts)已有报道了,这是超出我的预期但文献有报道的1

2. 哪些结果是我的预期和文献里面没有报道的?为什么会有这个结果:这个结果是实验的问题(比如取样、测序)导致的(这里要排除),还是一个可能的新发现(现象)?

继续看的时候,发现有另外一群成纤维细胞——F5,不仅表达成纤维细胞的Marker,还体现出神经系特征:比如表达神经胶质细胞特异表达的基因、且这些特异表达的基因参与神经配体-受体相互作用、轴突导向(Axon guidance)等,查了一下文献发现确实没有报道这个亚群,在排除取样、测序等问题后,就将这群CAFs定义为:Neural CAFs (nCAFs)。

3.如果是一个新发现(现象),别的研究或者其它实验能验证这个新发现(现象)吗?

所以接下来用其他结直肠癌单细胞测序数据来验证是否存在Neural CAFs (nCAFs)这群细胞,结果用4个数据集验证的时候,发现有1个数据集里面有这群细胞,这样就有意思了:好的地方是:这群细胞在其它研究中也有,不好的地方是:不是所有的研究都鉴定到了。

接下来,我们再用自己的样本验证,特别是我们当时做单细胞测序的样本,结果发现在6个样本中主要有2个样本中有,另外4个样本中几乎没有,说明Neural CAFs (nCAFs)这群细胞确实在某些样本中会存在

4. 如果能证实这个新发现(现象),那这个新发现(现象)与我们研究主题的关系是什么?;

既然这群细胞是有的,那在结直肠癌中是什么作用呢?

这个需要用实验验证了,这里我们通过临床样本的免疫荧光、流式细胞术、免疫组化等进行了验证,另外做了与肿瘤细胞共培养和对免疫细胞功能表型的影响,结果发现确实与结直肠癌不良预后有关,并且能增加肿瘤细胞恶性增殖和侵袭能力,并诱导免疫抑制微环境。到这一步就说明Neural CAFs (nCAFs)在结直肠癌中发挥促癌作用并作为不良预后的标志物了。

当然这里还需要进一步研究Neural CAFs (nCAFs)是如何作用的机制,有作用后要探索机制就容易很多了。可以从最熟悉的细胞间互作展开,研究发现Neural CAFs (nCAFs)通过分泌神经配体蛋白L诱导肿瘤细胞内TGFβ通路活化,从而促进肿瘤细胞恶性表型,并诱导免疫抑制微环境(比如Treg等)。

5. 最后,为什么之前别人没有提到这个新发现(现象),是不重要,还是说这个新发现(现象)需要在特定条件下才存在,而我的样本中偶然符合了这个条件?

接下来进一步考虑为什么Neural CAFs (nCAFs)只在某些样本里面存在。

首先我们看2个样本的病理报告,结果发现样本A是神经内分泌肿瘤(Neuroendocrine Neoplasms,NENs),这个好像比较好理解,应该是其中一个原因;但B却不是NENs,那B有什么特征导致Neural CAFs (nCAFs)也产生呢?既然病理中的NEN可以解释,那B出现Neural CAFs (nCAFs)会不会与基因突变或者分子分型有关呢?看NGS测序结果,果然B样本有个突变频率不高的X基因突变,而且之前有报道说X基因突变可能会导致肿瘤细胞表达神经相关基因,那就能对上了。

到这里就有两个发现了:Neural CAFs (nCAFs)的出现可能与NEN分型和X基因突变有关,只是由于这两种情况在结直肠癌中都不是特别高,我们自己也是走运了,居然能同时测到这两种样本,不过已经可以确定Neural CAFs (nCAFs)存在的两种条件了。

6. 如果需要这个条件才存在这个新发现(现象),就可以进一步验证这个猜想。

可以考虑两种策略:

  1. 收集更多的NENs,补测单细胞测序数据,既然有一个发现了,说不定还有其他发现;

  2. 肿瘤细胞X基因突变居然可诱导Neural CAFs (nCAFs)的出现,那就重点验证这个假说就行:肿瘤细胞中X突变通过配体-受体对诱导nCAFs进而形成正反馈回路,最终促进结直肠癌

嗯,想一下创新性应该不错,文章可以投个大子刊或者领域顶刊试试,作为首个报道nCAFs的发现,后续引用量应该不错,杂志社的编辑应该会感兴趣。

有了这个基础,还可以报面上项目

  1. 发现了一类新CAFs亚群——nCAFs,并发现nCAFs与结直肠癌进展和预后相关;

  2. 证明了nCAFs调控结直肠癌细胞恶性行为以及免疫抑制微环境的作用;

  3. 探索nCAFs促进结直肠癌的机制,分别从肿瘤细胞和免疫微环境两个方面来做;

  4. 研究X突变肿瘤细胞如何诱导nCAFs形成的方式,可以结合拟时序分析、SCENIC等单细胞测序结果来研究。

至于NENs的研究,可以下一个面上项目申报;或者先报NENs中nCAFs的项目,下个再报X突变的方向

好,本期内容就到这里,恳请各位专家高手批评指正!



作者



-广告-

在基金准备中需要帮助?

欢迎扫描下方二维码与我们沟通






“小张聊科研”团队郑重声明:我公司对外联络的渠道为企业微信及企业邮箱,请大家认准@解颐生物的企业微信,及@joyebio.com的企业邮箱。

阅读推荐:

    小张聊科研
    聊聊跟科研有关的感想心得,如基金,文章和实验。
     最新文章