WXRedian | 人机与认知实验室 | 大模型的基因缺陷

大模型的底层是多内层神经网络系统，而神经网络本身的数学假设就有问题，即常常把似然当成了先验。

上述观点在一定程度上触及了贝叶斯推断和深度学习的关系，在此需要回顾一下贝叶斯推断的基本框架，以及神经网络中常见的“优化”过程。

一、贝叶斯推断和深度学习

1、贝叶斯推断中的似然与先验

贝叶斯推断的核心思想是通过先验分布（Prior）和似然函数（Likelihood）来得到后验分布（Posterior）。在贝叶斯公式中，后验分布与先验和似然之间有如下关系：

𝑃 (𝜃 ∣ 𝑋) = 𝑃 (𝑋 ∣ 𝜃) 𝑃 (𝜃)/ 𝑃 (𝑋)

似然函数 表示在给定参数下，数据出现的可能性。
先验分布 描述了在观察数据之前，我们对模型参数的信念。
后验分布 是在观察数据后，我们对参数的更新信念。

2、神经网络的训练过程

在神经网络的训练中，我们通常通过最小化损失函数来优化网络的参数。这个过程类似于最大化数据在当前参数下的似然（最大似然估计，MLE）。在这种方式下，我们假设训练数据的分布是由神经网络的参数生成的。

神经网络的损失函数通常与数据的似然函数相关，例如，最小化交叉熵损失等价于最大化似然。

然而，神经网络并没有显式地考虑先验分布（除了在正则化中间接体现）。

3、似然与先验的混淆

“把似然当成先验”是在批评神经网络训练过程中缺乏显式的先验知识。在贝叶斯推断中，先验分布对后验分布有重要影响，而神经网络通常通过纯粹的优化来估计参数，而没有显式地融入先验知识。

具体来说，神经网络优化的目标是通过数据本身（即似然函数）来决定参数，但它没有明确地结合“先验”，即对参数的初步假设或信念。例如，如果没有正则化（如L2惩罚），神经网络的训练过程就像是没有先验的最大似然估计。

4、贝叶斯神经网络

为了克服这一点，一些研究尝试将贝叶斯推断与神经网络结合，提出贝叶斯神经网络（Bayesian Neural Networks，BNN）。在这种模型中，神经网络的参数被看作随机变量，具有先验分布。训练的目标是得到参数的后验分布，而不是一个点估计。贝叶斯神经网络能够结合似然和先验，提供不确定性估计。

“神经网络本身的数学假设就是错的，它把似然当成了先验”可以理解为一种对传统神经网络训练方法的批评，即神经网络优化过程往往忽略了先验的影响，单纯依赖数据来估计模型参数，缺乏贝叶斯推断中那种结合先验和似然的完整框架。如果你希望神经网络能更好地融入先验信息，可以考虑采用贝叶斯神经网络或者在训练过程中加入正则化项来间接体现先验知识。

二、事实性先验不同于价值性先验

事实性先验与价值性先验往往有很大的区别。这可以从贝叶斯推断的角度来理解这两个概念：

1、事实性先验

事实性先验是基于已知的、客观的事实或者经验数据来构建的先验。它通常源于历史数据、科学实验、统计分析或者从其他独立的知识来源中获得的已知信息。事实性先验是关于模型参数的分布或假设，它试图以客观的方式反映对某些现象的理解。如在气象学中，若我们知道过去某个地区的年降水量大约遵循正态分布，且均值在一定范围内，那么这个信息就可以作为事实性先验用于预测未来的降水量。还有，如果一个疾病的发生率在某个人群中通常为5%，我们可以将5%作为该人群中某个个体患病的先验概率。事实性先验的特点是，它通常基于实际的、可观测的数据或者已有的经验，尽量避免加入主观判断。

2、价值性先验

价值性先验则是基于个人或社会的价值观、信仰、偏好或道德观念构建的先验。这类先验不仅受到客观事实的影响，还包含了对这些事实的某些主观解读或价值判断。价值性先验可能会影响到我们对某些现象的看法和理解方式，往往具有一定的主观性。假设某项公共政策的评估中，评估者认为健康和环境保护应该比经济增长更为重要，那么这种价值观会影响到评估过程中对不同方案的权重分配。在社会科学研究中，研究者的个人信仰可能会影响他们对某些变量之间因果关系的假设，甚至影响数据的选择和解释。价值性先验的特点是，它通常是主观的，反映了我们如何理解世界以及我们在做决策时的价值取向。

3、区别与联系

事实性先验试图反映已知的客观事实或数据，而价值性先验则往往基于个人或社会的价值观、道德观等主观因素。在科学研究和统计建模中，我们往往希望尽量减少价值性先验的影响，尤其是在试图做到客观和中立的情况下。但实际上，很多时候我们难以完全避免价值性先验的影响，尤其是在社会科学、经济学和伦理学等领域。有时，事实性先验和价值性先验可能相互交织。例如，在制定公共政策时，政策制定者可能会基于某些社会调查（事实性先验）来选择某个方案，但同时，他们也可能因为某些道德或社会价值观（价值性先验）而偏向某些特定的决策方向。

4、在贝叶斯推断中的角色

在贝叶斯推断中，我们使用先验来对模型参数进行约束。事实性先验通常是依据数据和客观事实来设置的，能够帮助提高模型的预测准确性；而价值性先验则可能影响我们对某些假设的偏好，尤其在涉及到伦理、社会问题或政策决策时，价值性先验的作用尤为突出。

简言之，事实性先验基于已知事实、数据或经验，反映对现象的客观理解。价值性先验基于个人或社会的价值观、信仰和道德观，带有一定的主观性。两者在不同的学科和应用中扮演着不同的角色，理解它们的区别有助于更好地进行决策、建模和推理。

三、深度学习在缺乏先验知识的局限性

在很多没有或缺少先验知识的场景下，深度学习模型可能会面临一些挑战。为了更清楚地理解这个问题，一般可以从以下几个角度来看：

1、深度学习的优势与依赖

深度学习的一个关键优势是能够自动从大量数据中学习复杂的模式和特征。这使得深度学习特别适用于那些没有显式先验知识或难以设计特征工程的任务，比如图像识别、语音识别和自然语言处理等。在这些场景下，数据本身提供了足够的信息，模型可以通过反向传播算法调整权重，逐步学习到合适的表示。然而，深度学习的这种“数据驱动”特性也意味着它在一些先验知识不充分的场景下，可能会失去其优势。

2、数据需求

深度学习模型通常需要大量的标注数据才能有效训练。在缺乏足够数据的场景下（比如数据稀缺或昂贵的情况下），深度学习的表现往往不如其他方法，如传统的机器学习方法或基于规则的系统。特别是在先验未知的情境下，如果没有丰富的数据支持，模型往往无法获得好的泛化能力。在医学图像分析中，如果你没有足够的带有标签的医学图像数据，深度学习可能难以从数据中自动提取出有效的特征。

3、过拟合与泛化问题

在没有充分先验知识的情况下，深度学习模型容易过拟合。由于模型的参数通常非常庞大，且缺乏明确的先验信息，它可能会过度依赖训练数据中的噪声或偶然的模式，导致在未见过的数据上表现不佳。相比之下，传统机器学习方法（如决策树、支持向量机等）在小数据集上可能具有更好的表现，尤其是当你能够利用一些领域的先验知识来设计模型时。在金融市场预测中，深度学习模型可能会因训练数据的有限性而学习到一些短期的噪声模式，而非长期有效的规律。

4、缺乏解释性

深度学习模型通常被认为是“黑箱”模型，难以解释其决策过程。在一些没有明确先验知识的应用场景中，理解模型的行为和推断结果是非常重要的。在医疗、法律和金融等领域，模型的可解释性和透明度常常是关键要求。如果深度学习模型在缺乏先验信息的情况下给出决策，它可能会难以提供足够的可信度和透明性。

5、先验知识和正则化的作用

先验知识的引入通常能够帮助深度学习模型提高效率和性能，尤其是在数据稀缺或者噪声较大的环境中。在这种情况下，先验知识可以作为正则化手段，帮助模型避免过拟合，并提高模型在未知数据上的泛化能力。如迁移学习正是利用已有任务的先验知识，帮助模型在数据较少的任务上进行有效的训练。通过在一个大规模数据集上预训练（如使用ImageNet进行图像分类的预训练模型），然后将其迁移到特定的、数据较少的任务上，模型可以在没有从头开始学习的情况下获得良好的性能。

6、混合模型与先验结合

一些方法正在尝试将深度学习与传统的统计方法结合，以便在深度学习的框架中引入更多的先验知识。贝叶斯深度学习就是一个研究领域，它结合了贝叶斯推断的优点，可以在模型中自然地融入先验知识，从而提高模型的鲁棒性和解释性。通过在模型中引入先验概率分布，贝叶斯深度学习可以在数据不足时提供更可靠的预测，同时也能够量化不确定性。神经网络的正则化技术也是在深度学习中引入某种形式先验的例子，比如L1、L2正则化就是通过对模型参数的约束来引入先验知识，避免过拟合。

7、场景依赖性

深度学习是否有效，还取决于具体的应用场景。在一些问题中，先验知识非常重要，尤其是在那些需要精确控制模型行为的领域（如物理建模、工程设计等）。而在其他场景中，数据本身提供的模式足以让深度学习发挥作用。在自动驾驶领域，虽然深度学习可以通过大量的路况数据训练出很强的感知能力，但仍然需要结合先验的物理知识来处理复杂的交通规则、环境因素和安全性要求。

总之，深度学习的强大之处在于它能够自动从数据中学习复杂的模式，但这也使得它在先验知识稀缺或没有明确先验的情况下面临挑战。在缺乏数据或数据质量不高的情境下，深度学习可能难以充分发挥作用。因此，尽管深度学习在许多领域中取得了显著成功，但在某些场景下，结合先验知识、正则化方法或迁移学习等技术仍然是提升其性能和可用性的关键手段。