本文源于公众号学知园学习中心 , 作者复流形 . 想要学习几何与分析的可以关注他:
随机变量的分布与期望
我们将主要关注概率测度 , 概率测度是总测度为 的测度 , 所以概率测度空间上的性质在一般测度空间上未必都能成立 , 希望读者能够注意到这一点 , 在看到一个性质时可以看看它对于一般测度空间是否也对 . 另外概率测度空间上的可测函数在概率论中称为随机变量 , 除了类似于可测函数的部分性质外 , 概率论主要关心随机变量的分布 , 这区别于一般的可测函数理论 .
定义1: 一个三元组 称为一个概率空间 , 如果 是一个非空集合 , 是 上的 -代数且 是 上的一个概率测度 . 这时候也称 是样本空间 , 为事件域 , 中的元素为事件 , 而 是概率 .
事件 称为是必然事件 , 空集 为不可能事件 , 如果一个 上的性质在一个概率为零的事件之外成立 , 称此性质在 上几乎处处成立 , 或说其以概率 成立 .
例1(典等概率模型): 设 是一个有限非空集合 , 是 的子集全体 , 它是 上的一个平凡 -代数 , 对 , 定义
其中 表示 上的计数测度 . 显然 是一个概率空间 .
例2(几何等概率模型): 与古典等可能性类似的是几何等可能性 . 比如我们说在一个线段上随机地任取一个点 , 或者在一个圆内随机地取一个点等等 . 这自然隐含着指每个点取到的可能性是一样的 , 但这时可能的结果是所有点全体是一个无限元素的集合 , 故而等可能性不能如古典情形那样用数元素的个数来描述 .
我们可以用 Lebesgue 测度的概念严格地给出等可能性的含义 . 首先我们知道在一个给定线段上随机地取一个点落在区间 的概率只与区间的长度有关 , 而与其位置无关 . 也就是说概率应该是区间的长度 与整个线段的长度 的比 . 类似地 , 给定一个有界区域 , 在区域上随机地任取一个点 , 那么这个点落在 Lebesgue 可测子集 中的概率等于其 Lebesgue 测度 与整个区域的测度 的比 , 这样的概率我们称为是区域 上的均匀分布 .
首先让我们考虑 Euclid 空间 , 空间 上的一个概率测度 称为是一个 -维分布 . 一个 -维分布简称为分布 . 怎样具体构造 上的分布呢 ? 很容易看出来 , 分布诱导一个函数 , 对任何 , 用 表示矩形
在 下的测度 , 它是一个 之间的数 . 这个函数称为 对应的分布函数 . 当然矩形 的测度可以用函数 来表示 , 记为 . 例如 时 , , 而 时 ,
容易验证 满足下面三个条件 :
(1)对任意 且 , 则 ;
(2) 对于每一个分量是右连续的 ;
(3)对每个 , 且
上的函数 是分布函数当且仅当 是递增右连续且
由此引出下面分布函数的概念 .
定义2: 上的函数 称为是分布函数 , 如果满足上面三个条件 .
下面我们将证明分布函数一定是对应于某个分布的分布函数 , 说明 上的分布全体与分布函数全体是一一对应的 . 证明方法类似于 Lebesgue 测度的存在性证明 .
定理3: 设 是 上的分布函数 , 则在 上存在唯一的分布 使对任意 , 有
证明: 不妨设 , 对 , 定义 . 那么 可以自然地延拓到形如 区间的有限不交并组成的集类 上 .
其实分布函数定义中的条件(3)是为了概率测度而设的 , 没有它上述定理的证明一样可以 , 得到的测度是一个 Radon 测度 . 测度 称为是由 诱导的测度 , 学过广义函数的读者也许明白 , 这实际上是说分布函数 的广义导数是测度 , 即 . 我们用 表示分布 对应的分布函数 , 用 表示分布函数 对应的分布 .
一般地 , 概率空间通常是在抽象的集合上定义 , 但不便运算 , 因此在许多情况下 , 我们引入随机变量 , 将概率投射到 Euclid 空间上讨论 . 给定概率空间 , 一个 -维随机变量是指 到 的一个可测映射 , 一个 -维随机变量简称随机变量 . 注意与可测函数不同的是 , 随机变量只取有限值 . 实际上对于 上任何实值函数 , 有
是一个 -代数 , 称为是由 生成的 -代数 , 显然它是 上使得 成为随机变量的最小 -代数 , 通常记为 , 是随机变量 , 通常是指 .
设 是 上 -维随机向量 , 记 或记 是概率 在 下的像测度 , 它是 上的一个分布 , 称为 的联合分布 , 对应的分布函数称为是 的分布函数 . 众所周知 , 随机变量在实变函数中称为可测函数 , 但是分布函数的概念是概率论所特有的 , 或者说概率论更为关注随机变量的分布 .
给定分布 , 如果存在概率空间 及其上随机变量 使得 , 称 是 在概率空间 上的一个实现 . 显然任何分布都可以实现 , 比如在概率空间 上的恒等映射的分布恰是 , 这个实现称为是典则实现 , 注意其概率空间与 有关而随机变量与 无关 . 我们也可以固定概率空间而让随机变量变化来保证实现 , 比如下面的定理说明任何 上的所有分布可以在同一个概率空间上实现 .
定理4: 存在概率空间 , 使得对 上任何分布函数 存在随机变量 , 使得 的分布函数恰是 .
证明: 设 是 上的 Lebesgue 测度构成的概率空间 , 对 , 定义
因为 右连续 , 故右侧集合对递减列极限封闭 , 因此下确界可以达到 . 那么对任何 , 等价于 , 推出 是 上随机变量且其分布函数是 .
上面定义的函数是 在某种意义下的反函数通常称为 的广义逆 , 用符号 表示 . 它是左连续的并且在 点右连续当且仅当 在点 的某一右侧邻域上严格递增 . 实际上我们已经证明了只要随机变量 是 上均匀分布的 , 那么随机变量 的分布函数是 . 这也说明计算机语言里面只需要有均匀分布的伪随机数就可以实现所有其他分布了 .
两个随机变量称为是同分布的 , 如果它们有相同的分布或分布函数 . 一个分布通常可以有不同的实现 , 不仅是指实现为相同概率空间上的不同随机变量 ,而且也可实现在完全不同的概率空间上 . 因此在许多情况下 , 我们更关心分布 , 而不在意它是怎样实现的 . 下面给出概率论中一些重要的分布 , 在这里分布通常是分类型的 , 一个随机变量的分布是某种类型的 , 我们说随机变量服从这类型的分布 .
例3(单点分布):取定 , 恒等于常数 的随机变量的分布函数是
其中 是分布函数 , 对应的分布是 点的单点测度 .
例4:设 , 设随机变量取值 的概率是 , 取值 的概率是 , 那么其分布函数为
对应的分布是 , 此分布称为是 Bernoulli 分布 .
例5:随机变量 服从参数为 的 Poisson 分布 ,如果其分布律为
只需验证右边是一个分布律就可以了 , Poisson 分布描述某段时间内某事件发生的次数 .
例6: 随机变量 服从区间 上的均匀分布 , 如果 的分布函数为
这是一个连续的分布函数 . 容易验证 落在 内的任何等长度区间上的概率是一样的 , 这相当于古典概率的等可能性 , 所以称为均匀分布 ,这是最重要的概率分布之一 .
一个 -维分布函数 称为连续型的 , 如果对应的分布关于 上的 Lebesgue 测度绝对连续 , 即存在 上的非负可测函数 使得
这时称 是 的密度函数或 是一个概率密度 , 显然均匀分布函数是连续型的 , 而 Bernoulli 分布函数和 Poisson 分布函数不是连续型的 .
例7: 随机变量 服从参数为 的指数分布 , 如果它有密度函数
容易验证这个函数是一个密度函数 , 通常认为元器件的寿命服从指数分布 , 指数分布的许多性质类似于离散的几何分布比如遗忘性 .
例8: 说随机变量 服从参数为 的正态分布或 Gauss 分布 , 如果它有密度
记为 , 而 对应的分布称为标准正态分布 . 我们用 表示标准正态分布的分布函数 , 即
我们知道它不是一个初等函数 , 它的值要通过近似计算来获得 . 因为其密度函数是偶函数 , 故 以及 . 如果 , 那么容易验证 , 因此 的分布函数可用 表示为
例9 : 所谓 Cauchy 分布的密度函数为
例10: 参数 与 的 Gamma 分布的密度函数为
其中 是 Gamma 函数 , 即
例11: 设 , 是 阶对称正定矩阵 , 定义
其中 表示转置 , 表示 的行列式 . 容易验证 是一个分布函数的密度函数 , 我们称由 决定的分布函数是 维正态分布 , 当 时 , 称为时中心化的正态分布 , 当 且 是单位矩阵时称为是 维标准正态分布 .
如果一个随机变量 关于概率测度 可积 , 则其积分 通常称为是 的数学期望或均值 , 常理解为 在 上的平均 , 记为 . 另外 在 上的积分也常记为 . 由变量替换公式得
注意符号 与 没有本质区别 , 习惯于事件的概率 , 而 用于随机变量的期望 , 或者 . 进一步地设 是 上 Borel-可测函数 , 则 也是随机变量 , 如果可积 , 那么由变量替换有
上式右边是 Lebesgue-Stieltjes 意义下的积分 , 当 连续时则是 Riemann-Stieltjes 意义下的积分 .
随机变量的另一个重要的数字特征是方差 . 如果随机变量 是平方可积的 , 即 , 那么 的方差定义为
它用来测量随机变量与其数学期望之间的平均偏差 . 如果 是离散的 , 那么 . 如果 是连续型的且密度函数可认为是分段连续的 , 那么自然地上面的 Riemann-Stieltjes 积分可转化为通常的 Riemann 积分
例12: 设 是 上服从参数为 的 Poisson 分布的随机变量 , 则 的分布为 , 其中 是点 的 Dirac-测度 , 容易计算 , 同理可得 , 故 .
例13: 设随机变量 服从 上均匀分布 , 其密度函数为 , 因此有
例14: 设 是服从参数 的正态分布的随机变量 , 容易计算 和 . 首先如果 是标准正态分布 , 那么密度函数是偶函数 , 故 , 由分部积分 . 一般地因为 是标准正态分布 , 由期望或积分的性质得 和 .
设 是两个平方可积随机变量 , 定义
称为是 的协方差 , 由 Cauchy-Schwarz 不等式可知 , . 定义 与 的相关系数为
当 即 时 , 称 与 不相关 .
现在我们介绍独立的概念 , 它也是概率论中独有的 . 独立的概念来自于直观 , 比如重复地掷一个硬币 , 显然每一次的结果互相之间没有影响 , 这就是独立的意思 , 这时独立的事件同时发生的概率是各自概率的乘积. 也就是说, 如果 分别是“第一次掷出的是正面”和“第二次掷出的是正面”这两个事件 , 那么
独立的定义就是来自以上思想的抽象化 .
定义5: 设 是概率空间 , 是 中子类的集合 . 称为是相互独立的 , 如果对任何 的有限子集 与任何 , 有
事件集 相互独立 , 如果作为子类的集合 是相互独立的 . 设对任意 , 是 上的随机变量集 , 称 相互独立 , 如果 是相互独立的 .
显然随机变量 独立当且仅当对任何 , 有
容易验证如果 独立且平方可积 , 那么 , 即独立的随机变量一定不相关 , 但不相关的随机变量未必独立 .
例15: 设 服从 上的均匀分布 , 即对任何 , 有
其中 是 上 Lebesgue 测度 , 那么 不相关 , 但容易看出它们不独立 .
下面的定理是很有用的 , 它是说 -类的独立可以推出它们生成的 -代数独立 .
定理6: 设 是 中相互独立的子集类 , 如果每个 都是 -类, 那么 是相互独立的 .
定理的证明应用 Dynkin 引理立刻可得 , 留给读者思考 , 后面类似的证明很多 . 在理论上 , 我们经常需要考虑独立随机序列的问题 , 比如大数定律 , 强大数定律以及中心极限定理 , 都是从一个独立同分布随机序列开始的 . 给定一个分布列 , 是否存在一个独立随机序列使得它们对应的分布列恰好就是给定的分布列 , 这实际上就是随机过程的构造理论的一部分 , 但是对于这样一个问题 , 我们还是可以用初等的方法证明的 .
定理7: 存在概率空间 及其上面的一个独立随机序列 使得它们都服从 上均匀分布 .
证明: 设 服从单位区间上的均匀分布 , 是 的二进制表示的第 位小数 , 将 重新编号为 , 那么可列个随机变量序列
是独立的 , 即 关于 是独立的 -代数列 . 令
不难验证 是均匀分布的独立随机序列 . 给定一个分布函数列 , 那么 是独立随机序列且 的分布函数是 .
推荐阅读:《Probability & Measure Theory 概率与测度论》
您的点赞与关注是我们坚持不懈的动力 (点开名片进行关注):
由于微信平台算法改版,公号内容将不再以时间排序展示,如果您想第一时间看到我的推送,强烈建议星标我的公众号。星标具体步骤为:在公众号主页点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。感谢您的支持!