【探索未知】的系统生物学理解

2023-06-08 12:57   英国  



摘要

本文旨在通过建立数学模型论证个体探索未知领域之进化必然性,继而指向好奇心本身也是上述进化必然性的延伸之推论。本文以一种细菌为模型,根据其向更高浓度食物移动的倾向[1],通过随机模拟一个培养基内的食物浓度(第2节),并以其接受暂时资源减少的几率表示个体“探索未知的倾向”,尝试得出增加总体资源的最优策略(第3节)。最后,本文尝试模拟两种不同的竞争模型以体现两个不同的细菌物种互相影响时,在不同竞争烈度下策略对最终结果的可能影响(第4节)。限于算力,随机模拟的数据集可能得出假阳性结论,还望读者包涵。

关于细菌的移动可以参见[1] https://doi.org/10.1078/1438-4221-00173


模型介绍

研究表明细菌(尤其是致病细菌)有向更高营养浓度移动的倾向,一般通过旋转鞭毛的方式实现。因此,假设将一个细菌个体植入浓度并不均匀的培养基中(培养基是一个二维平面)一个随机的位置,其具有朝着浓度梯度的方向前进的倾向。但是鞭毛的转动显然并非精确的过程,因此细菌也有几率向着营养浓度降低的方向移动。细菌对暂时性的浓度降低的容忍度极低时,固然能保证细菌在单位时间内获得的资源持续增加,但是也可能造成其在局部最优解范围内移动,而错过全局最优解的机会。上述模型中细菌容忍暂时营养浓度降低的程度可以类比为人“探索陌生世界”的倾向,二者没有本质区别。


浓度分布构建

构建培养基的目标是使得

1.      在二维平面中有若干个局部浓度峰值

2.      上述的每个峰值最好比较接近,虽然有1-2个比较突出,但其他的峰值也有一定吸引力

3.      上述的每个峰足够接近


因此,采取如下方法构建随机的培养基:

1.      峰值的数量n取最小值为10,平均值为15的泊松分布,即10 + a, a ~ Poisson (5)。

2.      培养基的所有峰值坐标均在-4 < x < 4, -4 < y < 4内取均匀分布。

3.      每个峰为双向方差为1、协方差为0的二元正态分布乘以一个系数。

4.      每个峰的浓度值取平均值0.399 (= normpdf(0)),按照Dirichlet (3*1) 分布。Dirichlet分布抽取样本的总和为1,乘以n即得到每个峰的正态分布系数。以α = (3,3,...,3) 能够使得取值相比α = 1更加接近平均值。

5.      上述每个峰的二元正态分布函数值相加即得 -∞ < x < ∞, -∞ < y < ∞ 范围内的营养浓度值,取有效范围 -6 < x < 6, -6 < y < 6。


图1为上述方法产生的样图,图中亮度越高表示资源浓度越高。图中可见:

1.      在坐标约 (2,2) 处出现全局最优解。

2.      在坐标约 (-3.5, 2.5) 和 (-1,-3) 处出现两个可能使得细菌局限其中的局部最优解。

3.      每个峰之间的连接部分具有(相比外围接近0的浓度)较高的鞍点,因此脱离局部最优的代价相对较小。



图1. 随机浓度分布。

虽然上述方法具有一定的任意性,但是能够实现上述三个构建培养基的目标,足以满意。以下通过上述方法随机生成浓度分布,并模拟细菌在上述随机浓度分布中的移动。

一个物种的随机游走

构建随机游走算法的原则是:

1.      细菌向任意方向移动是一个概率事件,该概率和浓度的增加或降低相关。

2.      不论如何随机,细菌更有可能向浓度增加而非降低的方向移动。

3.      上述概率体现细菌对概率降低的容忍度,即所谓“探索陌生世界”的倾向。


根据上述原则,构建如下算法:

1.      令细菌对概率降低的容忍度为1/α(为了后续计算方便),以f(x,y)表示浓度分布。

2.      细菌的起始位置从-4 < x < 4, -4 < y < 4内取均匀分布。

3.      每过一段时间(每次迭代),生成可能前往的下一个位置,从以当前位置为中心,方差为0.05,协方差为0的二元正态分布中抽取。(方差即表示步长,可以调节,但限于算力就留给读者自行尝试了)。

4.      对比当前位置的营养浓度和下一个位置的营养浓度,移动到下一个位置的概率以逻辑斯蒂函数表示:

(cand 表示candidate,即可能的下一个位置)
此处可以看到,在δ=0时,p=0.5;δ<0时,p逐渐接近0,趋近0的速度和α线性相关,反之亦然。换言之,α越高,对于浓度降低的容忍度即降低,因此使用1/α作为该容忍度的指标。

5.      细菌以p的概率移动到下一个位置,在当前步骤积累的资源以下个位置为准;或者以1-p的概率留在当前位置,当前步骤积累的资源以当前位置为准。

6.      重复3-5,迭代1000次(可调节)。


上述算法的一次模拟结果如图2. 可见一个容忍度0.05, α = 20的细菌从左下角 (-4,-4) 附近开始后在一个局部峰值内作随机运动,虽然有一次接近了上述峰值的边缘 (-3, -2),但此后就一直围绕该峰值。该过程较好地体现了该细菌趋向局部最优的特性,但也有脱离局部最优解的机会。



图2.蓝色路径即为该细菌在该浓度分布中的移动路径。


接下来,用同一个浓度分布和同一个起始点,对α 在1-100区间内进行1000次模拟,结果如图3. 可以清楚地看到,在α很高时,虽然细菌在单位时间内积累的资源稳定在局部最优,但脱离局部最优、达到全局最优的概率也明显下降。同时发现α<10时移动比较不稳定。



图3. 对于图2a所给分布和起始点的连续1000次模拟实验结果。左图为总资源,右图为最后一次迭代积累的资源。


最后,用5个不同的浓度分布,每个分布下5个不同的起始点,对α在10-255区间内的64个不同的值进行共1600次模拟,结果如图4. 注意对比右侧图片的左上角和右上角。显然,在部分模拟中,由于起始点就落在全局最优的附近,导致各种策略结果差不多,例如右图中浅蓝色、红色、紫色三次实验。但是在起始点相对不那么有利时,较高的容忍度(α<30左右)则大大提高了达到全局最优解的机会,具体表现为右图左上角的颜色更丰富(每种颜色表示一个浓度分布中的一个起始位置)、点密度也更大。


图4. 上述1600次实验结果,左侧为总资源,右侧为最后一次迭代积累的资源。


用广义线性模型对细菌最终到达全局最优解的概率(当一次模拟的最后一次迭代积累的资源达到所有模拟中最高值的90%时认为其达到全局最优)进行逻辑斯蒂回归,在尝试多种模型后发现最有可能和上述概率相关的正是1/α,但相关性并不显著。在p=0.102的水平上发现上述概率对1/α的斜率为7.032,标准误差1.634. 如果进行更多的模拟,或许能得出全局最优解概率和1/α(对浓度降低的容忍度)显著正相关的结论。


两个物种的竞争模拟

在上述随机游走的模型基础上,不妨以下列原则表示两个物种的竞争:

1.      为了体现容忍度1/α的影响,两个物种应该具有相同的起始点(但是也可以尝试更改)

2.      竞争的方式是挤占另一个物种在某个位置获得的资源,且和两者的距离负相关(即所谓退避三舍)

3.      两个物种应当分别决定其是否前往下一个位置


根据上述原则,构建下列算法:

1.      以β表示竞争烈度

2.      每个物种的种群数量 (a) 和先前积累的总资源指数相关,即认为浓度表示增殖速度,或 (b) 和先前积累的总资源线性相关,即认为浓度表示最大可承载的种群数量 (carrying capacity)。

3.      每个物种的种群分布以上述单个物种模拟中的“当前位置”为中心,β为方差,协方差为0的二元正态分布。

4.      为了简化计算,分别以每个物种分布的中心计算其每次迭代积累的资源,因此就有:

其中p表示a和b的种群数量。
可以清楚地看到,增加β会导致正态分布函数变得扁平,normpdf(0,β) 减少,normpdf(d,β) 增加,因此两个物种每次积累的资源都会减少。(此处有另一个高考作文题目)

算力所限,无法进行系统性的模拟,以下展示几个个案。对于第一种指数级竞争的情况,以α = 20 和200 的两种细菌为例:


图5. 指数竞争条件下的10次随机模拟。上下滑动查看。竞争烈度beta在右上角。从左至右依次为:路径、总资源量随时间变化图、单次资源量随时间变化图。


对于第二种线性竞争的情况,同样以α = 20 和200 的两种细菌为例:



图6. 线性竞争条件下的8次随机模拟。三张图的布局同上。


从以上有限的个例中可以总结出如下几点规律,有算力的读者可能可以通过系统性实验验证:

1.      高烈度竞争导致短视,即倾向于更高的α值。

2.      在低烈度竞争下,如果起始点接近局部最优,则倾向于更低的α值。但是在低烈度竞争下,两种细菌一般占据两个不同的浓度峰值,因此还能共存。

3.      竞争烈度太低,且起始点接近局部最优时,过低的竞争反而减少了细菌向全局最优移动的动力


总结

以上模拟分析雄辩地说明了探索陌生领域(也就意味着接受风险)是跳出局部最优解的必要条件,但是盲目地接受风险也会导致毁灭。上述随机游走模型在现实的生物模型中最好的例证便是基因突变的速率:过高的突变速率在没有病毒式繁殖的高速率支持的情况下会导致物种灭绝,但是过低的突变速率会导致进化停滞,终究也会导致灭绝。上述两种物种竞争模型的局限性在于未能考虑物种内部的个体多样性。实际上,第3节所列的随机模拟不仅可以表示一个物种的迁徙,也可表示特定个体的移动,其总资源量代表其繁殖成果。如果对物种中的每个个体按照上述方法进行模拟,则通过物种内竞争,只要有一两个个体达到全局最优解,则整个物种的繁殖速率都会大大提高。因此,一个较高的风险容忍度(因此伴随着较高的脱离局部最优的机会)可能具有更大的优势,也印证了物种进化史上许多单点突变导致物种进化和分支的实例。将上述模型迁移到人类身上模拟人在生命周期中积累资源的过程,至少风险偏好和总收益的偏好是符合常识的。因此可以大胆地假设,人类的好奇心本身也和上述“理想突变速率”一样,是一种经过进化论的反复检验、打磨之后的必然结果。

本文全部代码开源,点击“阅读原文”查看。


Meditatio
在疯狂中沉思, 在沉思中疯狂. Sanitas insana, Sapientia stulta.