一、语言模型发展历程
二、最大熵模型
什么是信息熵?信息熵是由香农在1948年提出的,用于描述信源输出符号的不确定度,也就是信源所含信息量的多少。信息熵越大,说明信源发出的信息越难以预测,即信息的随机性越大。
对于离散型随机变量X,其信息熵H(X)定义为X所有可能取值的概率与其对应自信息的期望值。自信息是指某个事件发生时所带来的信息量,通常表示为事件发生的概率的负对数。
“不要把鸡蛋放在一个篮子里”是投资领域的经典原则,旨在通过资金分散降低风险。最大熵原理在信息领域也强调避免单一依赖,与前者理念相通,即在不确定情况下选择最大化不确定性的策略,以应对潜在风险。
最大熵原理数学上的解释是什么?p(x)相等时,H(x)最大。
最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。也就是说,学习概率模型时,在所有的概率模型分布中,熵最大的模型是最好的模型。
最大熵原理
拼音转汉字:在输入法中,当输入拼音时,最大熵模型可以根据上下文和主题信息,综合考虑多种可能性,给出最合理的汉字转换结果。
词性标注和句法分析:最大熵模型可以将多种信息整合到一个模型中,进行词性标注和句法分析,提高自然语言处理的准确性。
信息检索与排序:在网络搜索中,最大熵模型可以综合上百种信息,如网页内容、用户行为等,对搜索结果进行排序,使得用户更容易找到所需信息。
什么是最大熵模型?
三、N-gram模型
什么是贝叶斯定理&贝叶斯网络?
P(A|B) 是后验概率,即在事件B发生的条件下,事件A发生的概率。
P(B|A) 是条件概率,表示在事件A发生的条件下,事件B发生的概率。
P(A) 是先验概率,即在没有事件B发生的条件下,我们对事件A的信念或概率估计。
P(B) 是事件B的边缘概率,它是所有可能情况下事件B发生的概率总和,通常作为归一化常数,确保后验概率的总和为1。
贝叶斯网络(Bayesian Network,简称BN)是一种基于概率推理的图形模型,用于表示变量之间的依赖关系。它由一个有向无环图(Directed Acyclic Graph,DAG)和条件概率表(Conditional Probability Table,CPT)组成。
有向无环图(DAG):用于表示变量之间的依赖关系。图中的节点代表变量,有向边(或称为弧)则表示变量之间的依赖关系。如果两个节点之间存在有向边,则意味着一个节点的状态会影响另一个节点的状态。
条件概率表(CPT):与DAG中的每个节点相关联,用于描述节点与其父节点之间的概率关系。条件概率表详细列出了在给定父节点状态下,当前节点取各个可能值的概率。
Bayesian Network
什么是马尔可夫链&隐马尔可夫模型?
马尔可夫链:一种特殊的随机过程,具有“马尔可夫性质”。
马尔可夫性质:未来状态仅与当前状态相关,与过去状态无关。
马尔可夫链依赖于转移矩阵和转移图来描述状态间的变化。转移矩阵,作为一个二维数组,明确了从一个状态到另一个状态的转移概率。而转移图则直观地展示了这些状态间的转移关系,为理解和分析提供了便捷的可视化工具。
转移矩阵:是一个二维数组,其中每个元素表示从一个状态转移到另一个状态的概率。
隐马尔可夫模型(HMM)是一种统计模型,它基于一个隐藏的马尔可夫链生成不可观测的状态序列,并根据这些隐藏状态产生可观测的序列。
齐次马尔可夫假设:任意时刻的隐藏状态只依赖于前一个隐藏状态,与其他时刻的状态无关。
观测独立性假设:任意时刻的观测值只依赖于当前时刻的隐藏状态,与其他时刻的观测值和隐藏状态无关。
Hidden Markov Model
N-gram模型的n代表序列中元素的数量,因此称为N-gram模型。
Unigram:N=1,每个单词的出现概率独立计算,不考虑上下文。
Bigram:N=2,基于前一个单词预测当前单词的联合概率模型。
Trigram:N=3,考虑前两个单词来预测当前单词的联合概率模型,更复杂但可能更准确。
语料库准备:首先,需要有一个大型的文本语料库,用于训练N-gram模型。
计算频率:然后,计算语料库中所有可能的n-gram序列的频率。
概率估计:根据这些频率,可以估计出给定n-1个词后,下一个词出现的概率。
预测:在预测阶段,给定一个词序列的前n-1个词,模型可以输出下一个词的概率分布,从而可以选择最可能的词作为预测结果。