lintsampler：高效从任意概率分布生成随机样本的新方法

学术 2024-11-01 17:24 北京

来源：Deephub Imba
本文约1600字，建议阅读7分钟
在实际应用中，我们经常需要从给定的概率密度函数（PDF）中抽取随机样本。

这种需求在多个领域都很常见，例如：

估计统计量
进行蒙特卡洛模拟
生成粒子系统用于物理仿真

对于标准概率分布，如均匀分布或高斯分布（正态分布），numpy和scipy生态系统提供了现成的解决方案。通过numpy.random或scipy.stats模块，我们可以方便地生成这些分布的随机样本。

然而，现实世界中的概率分布往往远比标准分布复杂。例如，考虑以下非高斯分布：

图1：非高斯概率密度函数示例。等高线表示等密度线，在对数空间中等间隔分布

对于这类复杂分布，如何有效地生成随机样本呢？

传统上，有几种广泛使用的方法可以从任意分布中抽样，如拒绝采样法和马尔可夫链蒙特卡洛方法（MCMC）。这些方法都是可靠的技术，并且有一些优秀的Python实现。例如，emcee是一个在科学计算中广泛使用的MCMC采样器。

然而，这些传统方法通常需要复杂的设置和参数调整：

拒绝采样法需要选择合适的提议分布，不当的选择可能导致采样效率极低。

MCMC方法需要关注样本的收敛性，通常需要进行后验分析来评估。

lintsampler是一个纯Python实现的库，能够高效地从任意概率分布中生成随机样本。本问的作者就是lintsampler的开发者之一。lintsampler的设计目标就是解决这些问题，提供一种简单高效的采样方法。使用lintsampler的基本流程如下：


 from lintsampler import LintSampler import numpy as np
 x = np.linspace(xmin, xmax, ngrid) y = np.linspace(ymin, ymax, ngrid) sampler = LintSampler((x, y), pdf) pts = sampler.sample(N=100000)

在这个示例中，我们首先定义了两个维度的网格，然后将网格和概率密度函数pdf传递给LintSampler对象。最后，我们使用sample方法生成了100000个样本点。需要注意的是，这里的pdf函数并未给出具体定义，完整的示例可以在lintsampler文档中找到。

生成的样本点pts可以用散点图可视化：

图2：从复杂PDF中抽样得到的点的散点图。背景等高线表示原始PDF

这个例子展示了lintsampler使用的简便性。在某些情况下，它比MCMC或拒绝采样方法更快、更高效。

lintsampler的技术实现

如果你对lintsampler的内部工作机制感兴趣，本节将详细介绍其核心算法。如果你只关注使用方法，可以直接参考官方文档，其中包含了安装指南、使用说明以及多个维度（1D、2D、3D）的示例。文档还介绍了lintsampler的一些高级功能，如准蒙特卡罗采样（又称低差异序列）和自适应树结构采样。

线性插值采样算法

lintsampler的核心是一种称为线性插值采样的算法，本节将概述其基本原理。

以下示例说明了当您将概率密度函数（PDF）和网格传递给LintSampler类时，lintsampler内部的处理流程。我们以二维高斯分布为例，但这种方法适用于任意维度和更复杂的PDF。

网格评估：首先，在给定的网格上评估PDF。下图展示了一个使用不均匀网格的例子：

图3：左：2D高斯PDF。右：在不均匀网格上评估的PDF。（图片来源：作者）

网格单元概率计算：利用梯形法则估计每个网格单元的总概率。计算方法为单元体积乘以其四个角点密度的平均值。

线性插值近似：在每个网格单元内，使用双线性插值近似PDF：

图4：使用双线性插值填充的网格化PDF

高效采样：基于线性近似的PDF可以高效地进行采样。单个样本的生成是一个两步过程：

图5：左：随机选择的网格单元。右：在选定单元内采样的点。

a. 首先，根据各单元的概率权重随机选择一个网格单元（如左图所示）。b. 然后，使用逆变换采样法在选定的单元内生成一个样本点（如右图所示）。

核心技术要点

线性近似是该算法的关键步骤。通过将每个网格单元内的PDF近似为线性函数，我们可以得到其分位数函数（即逆累积分布函数）的封闭解析形式。这使得逆变换采样可以简化为生成均匀分布的随机数并应用一个代数函数。

实际应用中，用户需要关注的主要参数是网格分辨率，以确保线性近似的精度足够高。适当的分辨率取决于具体的使用场景，lintsampler文档中的示例笔记本展示了不同情况下的最佳实践。

总结

lintsampler为从复杂概率分布中生成随机样本提供了一种简单、高效的解决方案。它结合了易用性和高性能，适用于广泛的科学计算和数据分析任务。对于需要处理非标准概率分布的研究人员和开发者来说，lintsampler是一个值得考虑的强大工具。

lintsampler主页和文档地址

https://lintsampler.readthedocs.io/en/latest/

编辑：王菁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247647541&idx=2&sn=95274443bf029f97b1237c1647528b32

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

活动预告 | 首届北京数字人才发展大会

【伯克利博士论文】从自然场景视频中解耦人体运动和相机运动

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

【NUS博士论文】视频语义理解中的因果模型

清华软件论坛|C. Mohan:Data Management Implications of Intelligent Comp

征文延期至11月22日通知 | 首届开源技术学术大会征稿启事

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

随机性、熵与随机数生成器:解析伪随机数生成器（PRNG）和真随机数生成器（TRNG）

【CIKM2024教程】高效的时间图学习：算法、框架与工具

报名 | 大数据产业论坛第1期——汽车行业专场

通知 | 首届开源技术学术大会征稿启事

NeurIPS 2024｜解锁大模型知识记忆编辑的新路径，浙大用「WISE」对抗幻觉

深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究

【CIKM2024教程】大语言模型在表格任务中的应用

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

【ETHZ博士论文】用于视觉场景理解的领域鲁棒网络架构与训练策略

成都八零大赛圆满收官，清华大学参赛团队获“领先者”奖

原创｜制造新篇：重塑大语言模型在制造领域的力量

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

【NeurIPS2024】轨迹流匹配及其在临床时间序列建模中的应用

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

PeFAD：边缘设备中高效的联邦异常检测框架

【NeurIPS2024】Frozen-DETR：利用冻结基础模型的图像理解能力提升DETR

数据派志愿者招募 | 寻找最志同道合的你！

链接数据：如何使用知识图谱改进RAG

过采样与欠采样技术原理图解：基于二维数据的常见方法效果对比

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

干货 | 清华Python编程入门分享会第三期

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

直播预告 | Al+研发数字峰会(AiDD) 2024深圳站开幕式

11种经典时间序列预测方法：理论、Python实现与应用

干货 | 清华Python编程入门分享会第二期

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

【ETHZ博士论文】机器学习代码: 安全性与可靠性

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

梯度累积的隐藏陷阱：Transformer库中梯度累积机制的缺陷与修正

【牛津大学博士论文】用于本体工程的语言模型

KDD 2024 | 数据驱动的分布偏移检测与自适应

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉