浅析最大似然估计：用数据说话

学术科技 2024-05-07 08:28 英国

在统计学习和数据科学的世界中，有一种非常强大的参数估计方法，被称为最大似然估计（Maximum Likelihood Estimation，简称MLE）本文带您了解什么是最大似然估计，以及它是如何帮助我们从数据中提取洞见的。

什么是最大似然估计？

最大似然估计是一种基于概率理论的方法，用于估计一个概率模型的参数，使得观测到的数据在该模型下出现的概率最大。换句话说，它寻找的是使我们观察到的数据最有可能发生的参数值。

基本原理

假设我们有一组数据和一个模型，该模型中包含未知的参数。最大似然估计的目标是找到这些参数的最佳估计值，使得这组数据在统计意义上最有可能出现。这涉及到计算所谓的“似然函数”，它是关于模型参数的函数，代表了数据在不同参数取值下的概率。

举个例子，假设我们有一些数据点，并且认为它们来自于正态分布，但目前不知道这个分布的平均值和标准差。最大似然估计会帮助我们找到这两个参数的值，从而使这组数据的出现概率最大化。

数学推导

接下来，通过数学推导理解如何使用最大似然估计（MLE）来推导几种不同分布的参数。

指数分布 (Exponential Distribution)

指数分布常用于描述事件发生的时间间隔，其概率密度函数为，其中是事件发生率。

假设我们有个独立同分布的样本，似然函数为：

对数似然函数为：

求导并令导数为零，找到极值：

解得：

这是的最大似然估计。

几何分布 (Geometric Distribution)

几何分布描述了在成功之前进行的失败次数，概率质量函数为。

对个独立的样本，似然函数为：

对数似然函数为：

求导并令导数为零：

解得：

二项分布 (Binomial Distribution)

二项分布描述了在次独立的是/非试验中成功的次数，其概率质量函数为。

对于 m 个试验的结果，似然函数为：

对数似然函数为：

求导并令导数为零：

解得：

泊松分布 (Poisson Distribution)

泊松分布用于描述单位时间或单位面积内随机事件的发生次数，其概率质量函数为。

似然函数为：

对数似然函数为：

求导并令导数为零：

解得：

均匀分布 (Uniform Distribution)

对于在区间上的均匀分布，似然函数取决于最大值和最小值：

这里，。为了最大化似然函数，我们需要最小化，因此：

正态分布 (Normal Distribution)

正态分布是统计中最常见的分布之一，其概率密度函数为，其中是均值，是方差。

假设有个独立同分布的样本，似然函数为：

对数似然函数为：

对和分别求导并令导数为零，得到：

对：
解得（样本均值）。
对：
解得（样本方差）。

威布尔分布 (Weibull Distribution)

威布尔分布通常用于描述生存数据或材料失效时间，其密度函数为，其中是形状参数，是尺度参数。

似然函数为：

对数似然函数是：

求和的导数并解方程得到最大似然估计通常需要数值方法，因为解析解可能难以获得。

伽马分布 (Gamma Distribution)

伽马分布是描述等待多个事件发生所需时间的分布，其密度函数为，其中是形状参数，是率参数。

似然函数为：

对数似然函数是：

求导并求解通常需要数值方法。

帕累托分布 (Pareto Distribution)

帕累托分布常用于描述财富分布等重尾问题，其密度函数为，其中是最小值参数，是形状参数。

似然函数为：

$$L(\alpha, x_m) = \prod_{i=1}^n \frac{\alpha x_m^{\alpha} {x_i^{\alpha+1}} = \alpha^n x_m^{n\alpha} \prod_{i=1}^n x_i^{-\alpha-1} $$

对数似然函数是：

对和分别求导并令导数为零，求解得到：

对：
对：
解得通常需要数值方法。

贝塔分布 (Beta Distribution)

贝塔分布常用于模型随机变量的概率，它的密度函数为，适用于定义在区间上的变量。

对个独立同分布的样本，似然函数为：

对数似然函数为：

求导并解方程通常需要数值方法，因为涉及到Gamma函数和其导数。

负二项分布 (Negative Binomial Distribution)

负二项分布用于描述在第 r 次成功之前需要进行的失败次数，其概率质量函数为，其中是成功的概率。

对数似然函数为：

求导得到的最大似然估计通常需要数值解法。

t分布 (Student's t-Distribution)

t分布广泛用于小样本数据的均值分析中，特别是当总体标准差未知时。t分布的形式较复杂，且似然函数的解析形式不易直接推导，因此通常不通过最大似然估计来直接估计其参数。此处直接给出数值求解代码

import numpy as np
from scipy.optimize import minimize
from scipy.stats import t

def neg_log_likelihood(params, data):
    mu, sigma, nu = params
    sigma = np.exp(sigma)  # 确保 sigma 为正
    return -np.sum(t.logpdf(data, df=nu, loc=mu, scale=sigma))

data = np.random.standard_t(df=10, size=100)  # 示例数据
initial_guess = [0, np.log(1), 10]
result = minimize(neg_log_likelihood, initial_guess, args=(data,))
print(result.x)

对数正态分布 (Log-Normal Distribution)

如果一个变量的自然对数是正态分布的，则该变量服从对数正态分布。其密度函数为，其中 \mu 和分别是对数的均值和方差。

似然函数为：

对数似然函数为：

对和分别求导并令导数为零可以得到最大似然估计

数值解法简析(以Gamma分布为例)

数值方法在处理复杂的最大似然估计（MLE）问题时非常有用，尤其是当分析解难以获得或不存在时。对于伽马分布，由于形状参数和率参数的似然方程通常不能直接解析求解，数值优化方法成为一种必要的选择。下面是一些常用的数值方法及其在解决伽马分布参数的最大似然估计中的应用：

梯度上升（或梯度下降）

梯度上升法是一种利用似然函数的梯度信息来寻找参数的最大值的技术。基本思想是从一个初始的参数估计开始，然后迭代地调整参数，使得对数似然函数增大。

对于伽马分布，首先需要计算对数似然函数关于和的梯度，然后进行迭代更新：

对的更新：
对的更新：

其中，是学习率，一个小的正数。

牛顿-拉夫森方法（Newton-Raphson Method）

牛顿-拉夫森方法是一种更高效的数值优化技术，它利用了函数的一阶和二阶导数（即梯度和Hessian矩阵）来快速找到极值点。这个方法通常比简单的梯度上升法收敛得更快。

对于伽马分布的参数和，迭代公式如下：

其中，表示参数向量，是对数似然函数的Hessian矩阵，是梯度向量。

模拟退火（Simulated Annealing）

模拟退火是一种全局优化算法，适用于似然函数可能存在多个局部最大值的情况。该方法通过在迭代过程中引入随机性，有助于算法跳出局部最大值，寻找全局最大值。

使用现有库和工具

在实际应用中，利用现成的统计或数学软件包来执行这些数值优化任务，如Python的scipy.optimize库，scipy.optimize提供了多种优化算法，包括牛顿-拉夫森方法和其他高级优化算法。

使用scipy.optimize中的minimize函数来找到伽马分布的最大似然估计：

import numpy as np
from scipy.optimize import minimize
from scipy.special import gammaln # 伽玛函数的对数形式

# 对数似然函数
def neg_log_likelihood(params, data):
    alpha, beta = params
    return alpha * np.log(beta) - gammaln(alpha) + (alpha - 1) * np.mean(np.log(data)) - beta * np.mean(data)

# 数据
data = np.random.gamma(2, 2, size=100)

# 最优化
result = minimize(neg_log_likelihood, x0=[1, 1], args=(data,), method='L

-BFGS-B', bounds=[(0.001, None), (0.001, None)])
print(result)

控我所思VS制之以衡

专注于控制理论、控制工程、数学、运筹、算法等方面的经验积累与分享

最新文章

决策分析新武器：深度解析Dempster-Shafer(DST)证据理论

DS证据理论的Python实现源代码

基于非线性增强比例导引的导弹-目标交战仿真软件（含MATLAB源码）

太震撼！美国民兵Ⅲ型核导弹制导系统和计算机内部欣赏

控制系统的校正方法(3)：案例分析(附资源)

“筷子夹火箭”首次成功！SpaceX星舰第五次试飞！

关于在科研活动中规范使用人工智能技术的诚信提醒

控制系统的校正方法(2)：补偿方法

控制系统的校正方法系列(1)：PI控制与PID控制

滑模观测器

《线性代数的艺术》：仅12页涵盖线性代数全部重要要点，全文分享，值得收藏！

重磅，2023年度国家科学技术奖励名单揭晓（全名单）

《天际回响：中继卫星轨道确定》（含美国中继卫星系统(TDRSS)系统仿真代码）

嫦娥五号月球轨道交会导引策略设计

控制系统的“脆弱”与“坚韧”:灵敏度的双刃剑

限时删！太牛了！最强大模型：ChatGPT-4，强烈建议大家学一学…

浅析最大似然估计：用数据说话

火箭全程模拟软件（含源码）

我国组建军事航天部队：安全进出、开放利用、危机管控、综合治理、和平利用

预设性能控制——性能函数

预设性能控制（含视觉仿真代码）

稳定性与状态矩阵特征值

彪马PUMA优化器（含MATLAB代码）

Sora物理悖谬的几何解释

小白必看：控制系统的基本分析框架（视频讲解）

红包封面奉上，祝愿大家龙年龙行龘龘前程朤朤生活䲜䲜！

遗传算法详解（含代码实现）

一张数学地图带你尽览数学分支

从贝叶斯的角度理解卡尔曼滤波器

不会求解Cost Function？如何进行非线性优化？试试『高斯牛顿解法』！

泛函术语辨析：欧几里得空间、希尔伯特空间、巴纳赫空间、赋值范数空间、内积空间

我们如何快速用上官方Gemini Pro？3分钟帮你搞定！

概率与统计基础知识简明速查手册，建议收藏！

[视频]矩阵谱分解、奇异值分解的可视化理解

2023年工程院、科学院院士增选当选院士名单公布！祝贺！

万物皆可“贝叶斯”——高斯分布的贝叶斯推断

中心极限定理的理解

万物皆可“贝叶斯”——Bayes' Theorem-贝叶斯定理

高斯过程回归（Gaussian Process Regression）——具体理解

高斯过程回归（Gaussian Process Regression）——数学基础

四旋翼无人机的物理模型及控制方法

粒子群算法的快速理解(含MATLAB实现)

对Lipschitz连续的理解

[分享]傅里叶级数,傅里叶变换,离散时间傅里叶变换,离散傅里叶变换,快速傅里叶变换,拉普拉斯变,Z变换之间的关系

论文辅导 | 科研新手，如何搞定第一篇SCI/SSCI论文？

[工具分享]final2x:再模糊的图片放到今天也能变成4K(含资源、安装与使用教程)

583位/655位，中国科学院/中国工程院院士有效候选人名单公布！

指导“深度学习+控制理论”做到1+1>2的方法论

一文读懂策略梯度算法：REINFORCE、Actor-Critic、A2C

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

​浅析最大似然估计：用数据说话

什么是最大似然估计？

基本原理

数学推导

数值解法简析(以Gamma分布为例)

浅析最大似然估计：用数据说话