组学上的人工智能应用

文摘   教育   2021-04-20 19:44  

现在组学方兴未艾,又出了人工智能(机器学习),我私以为后面的研究肯定是这两样东西的结合。这里先不讨论人工智能和机器学习的区别(机器学习是人工智能下面的一个分支),在这篇blog中我将它们等同先,就是使用计算机结合算法去解决问题。

今年我在思考一个问题——人工智能能否应用在林业上,或者说是竹林中,又或者说是竹子的生长发育过程中。之所以我提出该问题是由于我本学期初交给导师的一份展望和总结。我在展望和总结中谈到我想这学期学习一下人工智能,然后她就回复我说,人工智能怎么用到竹林上。也许她是看完后的随口一问,但是我却一时无法回答。我这学期就在改我的文章——基于竹类叶片的SVM识别分类系统。我可以直接说可以用来识别植物,但是我在改这篇文章的事儿,她肯定知道,她肯定不是想得到这样的一个回答。然后我去知网上翻找了一些文章(这边没有特别卖力的去找),都是些和遥感监测搭边的文章,也就是和机器视觉结合。虽然机器视觉也是人工智能中相当重要的部分,但是这同质化也太严重了。

我认为后面人工智能是一种趋势,现在中学生就要求学编程,就和我们小学要求学英语一样,现在人工智能在很多方面还只能起到辅助,比如基于叶片的竹种识别和医学影像的病灶分析,但是有一些方面人工智能是领先人的,比如一些好的识别模型对缺素诊断可以比专家早2天,因为对于色彩(灰度),人眼只能分辨8级左右,而单单RGB色彩就可以有256级灰度!

话说回来,理一下有哪些组学,从基因——植物个体,有基因组,蛋白质组,代谢组和植物表型组。什么是组学,组学就是研究“组”的学科,研究“组”的结构,功能并对其进行功能的改良,最终希望能解决进化问题的一门学科。


TRAVEL
人工智能在组学中的应用


组学应用
基因组

它的出现就伴随着“大”数据,一个叶绿体的基因组有几百Kb,一个物种的转录组有几百Mb,而真核生物的全基因组测序后组装完可以有几个Gb。在现在一集电影就可以有几个Gb的时代,这样的数据量可能不算大,但要知道这几百Kb——几Gb的数据全是由ATGC排列起来的,换句话说就是它们全是字符串,现在一本txt格式的小说大概也就几百Kb大。里面充满了有规律的重复,分析起来还是不简单的。现在机器学习发展起来了,可以对其进行数据的挖掘和探索。


蛋白质组

蛋白质是由一维的氨基酸和三维的空间结构决定功能的,要真论起来,可能三维的空间结构更能决定蛋白质的功能,比如镰刀性贫血中就是血红蛋白β链第六位的谷氨酸被缬氨酸所替代,原先“白白胖胖”的血红蛋白就畸变成镰刀状,结合不上氧气也就谈不上运输氧气了。人工智能中可以用来预测结果,从而来推测蛋白质的功能。


代谢组

这个组学更像是平时做的胁迫实验中测指标那种感觉。实验设计时弄个干旱胁迫,然后采个6株植物送过去测代谢组,分析哪些代谢物变了。这里也可以用上人工智能中的数据分析。



表型组学
表型组,这个组学提出很早,1997年就有人讲表型组作为基因组研究的重要补充资料去研究复杂的疾病性状。与之相对的概念就是基因组,表型就是基因与环境交互后的表现形式。

  1. 在基因水平上就是SNP、SSR和RFLP等;

  2. 在转录水平上就是DNA甲基化、组蛋白的修饰等;

  3. 生化水平上就是代谢调控、蛋白质标志和功能成分等蛋白质或代谢物特征;

  4. 生育发育水平上是光周期、光合效率和生长动态等生理发育特征;系统解剖水平上是株型、叶片结构特征等组织和器官的形态差异;

  5. 终极特性水平上则就是抗逆性、丰产性等植物形状功能特征。


代谢物前的表型和前面的组学研究有重复,所以我这里说的组学特指表观的表型组学。对于这类的组学,人工智能中的机器学习可是大放光彩。现在有无人机可以直接拍照,然后对照片进行植物的表观特征提取,再结合机器学习去建立模型就非常好了。

参考资料



[1]潘映红.论植物表型组和植物表型组学的概念与范畴[J].作物学报,2015,41(02):175-186.



智慧识竹
和小周周一起学习新知识,探索更多的未知世界吧
 最新文章