1. 信念的种子:基础比率的力量
从一个主观的先验概率开始,贝叶斯定理教会我们如何在不确定性中找到希望的起点。
2. 粗略也是一种智慧:行动在不完美中也能美好
贝叶斯分析告诉我们,即使在信息不完全或模糊的情况下,也能做出有力的决策。
3. 流动的信念:持续更新的艺术
贝叶斯思维强调信念不是静态的,而是一个随时间和数据不断更新和适应的动态过程。
4. 简约与全面:奥卡姆剃刀与多维证伪
贝叶斯分析教我们如何在复杂性和简单性之间找到平衡,同时从多个角度审视问题。
5. 因果的新语言:概率作为解释工具
通过贝叶斯分析,我们可以用概率作为一种新的工具来理解和解释因果关系。
6. 知识的三重旋律:经验、探索和更新
贝叶斯思维强调知识是基于经验、通过试探获得,并随着新信息而不断更新的。
7. 智慧的进化:不断逼近真相
贝叶斯方法教会我们如何通过不断的自我修正和更新,逐渐接近真相或最优解。
8. 联结的力量:贝叶斯网络与分布式思维
类似于我们大脑的原理,贝叶斯网络展示了如何通过联结和分布式思维来解决复杂问题。
9. 你的连接定义了你:联结的权重
10. 模型的双面性:在相信与怀疑之间寻找平衡
一个贝叶斯主义高手,能够在相信中怀疑,在怀疑中相信,并在一个充满不确定性的世界里,持续前行,
下图是对公式的直观描述:
为飞机失事建立一个数学模型; 整合评估各种导致失事的原因的概率; 根据更新信息,改进模型。
的确不在B区域的概率是37.5% 还是在B区域但是被漏掉的概率是12.5%。
“初始信念”是先验概率,更新后的信念是后验概率。 在新一轮的观察中,后验概率又变成先验概率。
反省(reflection):我们的心灵主动地反省自身内部的心理活动。例如:知觉、思想、怀疑、信仰、推论、认识、意欲,以及人心的一切作用。
贝叶斯网络有如下特点:
1、条件依赖性: 贝叶斯网络通过图的形式表达了条件依赖关系。如果一个箭头从A指向B,那么B在一定程度上取决于A。
2、概率性: 每一个节点都有一个条件概率表,用于描述给定其父节点状态下该节点状态的概率。
3、推理与学习:给定一部分节点(观测数据),你可以使用贝叶斯推断来估算其他未观测节点(隐藏变量)的概率分布。
贝叶斯网络的强大之处在于,即使在复杂和不确定的情况下,它也能提供一种逻辑严谨的方式来推断未知变量的概率分布。
1、在字母层面上,它可能是“FHP”,但在词汇层面,这个字母串是没有意义的。
2、在词汇层面上,这个词更可能是“FAR”、“CAR”或“FAT”。神经元将这些信息向上传递到句法层面,我们因此判断出在“THE”之后出现的应该是一个名词。
3、最后,这些信息被传递到语义层面,我们进而意识到因为前一句提到了大众汽车,所以这个短语很可能是“THE CAR”,代指同一辆大众汽车。
更关键的是,从上图中我们可以发现:
“所有的神经元都是同时来回传递信息的,自上而下,自下而上,自左向右,自右向左。”
这意味着,大脑是一个高度并行的系统,而非过去我们认为的是一个单一的、集中控制的系统。
朱迪亚·珀尔从鲁梅哈特的论文中认识到:
任何人工智能都必须建立在模拟我们所知道的人类神经信息处理过程的基础上,并且不确定性下的机器推理必须借助类似的信息传递的体系结构来构建。
然而,难题是:信息具体指的是什么呢?
想了好几个月,朱迪亚·珀尔终于认识到:
信息是一个方向上的条件概率和另一个方向上的似然比。
更进一步,他将贝叶斯定律和神经网络的推理结合了起来。
朱迪亚·珀尔认为:
1、网络应该是分层的,箭头从更高层级的神经元指向较低层级的神经元,或者从“父节点”指向“子节点”。
2、每个节点都会向其所有的相邻节点(包括层次结构中的上级节点和下级节点)发送信息,告知当前它对所跟踪变量的信念度(例如,“我有2/3的把握认为这个字母是R”)。
3、接收信息的节点会根据信息传递的方向,以两种不同的方式处理信息。
4、如果信息是从父节点传递到子节点的,则子节点将使用条件概率更新它的信念。
贝叶斯网络中的每个节点(变量)通常只与其父节点和子节点有直接的依赖关系,这大大减少了需要考虑的变量数量和相应的计算负担。
故事的另外一条主线,顺着神经网络前行。
1986年10月,大卫·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯发表了《”Learning representations by back-propagating errors》。
该论文描述了一种新的学习程序,可用于神经元样网络单位的反向传播,其掀起的惊人浪潮,正是当下大热的深度学习。
必须一提的是,朱迪亚·珀尔试图将因果引入概率世界。而在神经网络原教旨主义者辛顿看来,许多类似的主张完全是多余的。