「经验」不适合做AB实验的场景下,通过这4种方式来衡量策略效果

科技   科技   2024-03-19 08:36   北京  

新同学 点击下方名片关注哦,每周二准时发文~~

预计阅读时间:8min


00

序言

在日常产品迭代过程中,我们常常需要去验证某个功能、策略的改动是否符合预期,是否可以完全替代现有的方案。小流量实验往往是最常用、最直接验证因果的方式。然而有些时候,由于忘记开展实验、实验成本较高等因素,没有对策略进行AB实验,但又希望评估策略效果,这个时候,则可以通过其他因果推断方式进行佐证。

因果推断的基石在于尽量保障策略差异是唯一的变量,核心步骤涵盖两点:

其一:构造两组相似的用户群体,群体差异越小越好。

其二:度量策略对群体的影响程度,聚焦核心指标的变化。

以下几类方式是因果推断中常用到的,如下图所示。

下面,将对每个模块的方式进行展开说明。


01

Matching

因果推断的前提条件,是构造两个近似完全一样的样本群体,一般情况下,样本群体=用户群体。保证用户群体一致最直接的方式,则是一一匹配,即:保证微观单体用户一致,扩展到整体也是一致的。这种通过treated用户去匹配no treated用户的方式,称之为Matching,常见的Matching方式有以下几种,如下图所示。


精确匹配(Exact Matching)

最理想的方式是对两组单体用户一一精准匹配,保障单体用户特征完全一样,例如:实验组单体用户「18岁+一线城市+男性+本科+互联网行业」与对照组单体用户「18岁+一线城市+男性+本科+互联网行业」相匹配。

理论上,此种方式匹配出来的用户最为精准,不过其存在一定的局限性。

一方面,需要两组内有足够多的群体用于匹配;

另一方面:适配维度不宜过多,过多的维度会导致很难匹配到完全一致的样本。


粗化精确匹配(Coarsened Exact Matching,CEM)

同学们思考一下,如果是连续特征,要如何进行精确匹配呢?例如:收入、支出、打开软件次数等。涵盖连续特征的用户,找到相同的概率会大打折扣。

这里,可以在精确匹配的基础上做一点改动,将连续特征分段离散化,然后再进行精确匹配。例如:打开软件次数的范围是0→+∞,可将连续变量分段成[0,5),[5,10),[10,+∞)等。


马氏距离匹配(Mahalanobis Distance Matching,MDM)

虽然EM、CEM可以相对精准一一匹配用户,然而随着维度的增加,精准匹配用户的可用性会逐步减弱。

面对这种情况,可以退而求其次,增加兼容机制,通过计算距离的方式,近似匹配相似的用户,如能精准匹配相同用户,则距离为0;如不能精准匹配,则逐一选择距离最近的用户。

此种方式最大的局限性在于效率,假设实验组M个用户,对照组N个用户,则其计算量为M×N,当样本量与特征均较高时,该种方式的效率会非常低(同分类模型KNN原理一致)。


倾向性得分匹配(Propensity Score Matching,PSM)

PSM是在MDM方式上的一种优化,其本质是将高维特征映射到一维倾向分上,然后再在不同label中寻找相近的倾向分用户。这里的倾向分,代表了多维特征整体数值的表现,该值越接近,则两样本的整体特征越相似。

同样,PSM也会有一定的局限性和弊端。

其一:对于样本量有要求,如果样本量过少,会导致匹配的样本距离过远,达不到真实的相似要求。

其二:对于模型的训练要求较高,会出现两用户各特征并不相似,但倾向性分很相近的情况,即:信息折损。


02

Weighting

Weighting的核心思想,是将实验组与对照组用户群体内各类人群比例,调整到同大盘一样的标准,从宏观上保证其样本量的同质。

本质上,Matching是对样本进行重采样和丢弃,同Weighting的核心思想一致,其不一样的地方主要体现在以下两方面上。

其一:Matching是以treated群体为标杆去匹配no treated群体,验证的是treatment给实验组用户带来的影响;而Weighting是以大盘用户为标杆去匹配群体,验证的是treatment给大盘用户带来的影响。

其二:由于Matching在重采样中存在随机性,因此鲁棒性没有Weighting强。


03

Regressing

Regressing同Matching、Weighting思路完全不同,不再为treated群体样本一一匹配,而是通过预测来估计treated群体样本落在对照组的指标表现情况。其将实验组用户指标Y,拆解为「协变量+treatment」,以此来计算实验组样本在对照组的量级,再通过计算差值得到策略对指标的影响程度。


04

Other Method

其他方式还有很多,如下图所示。

其中应用较多的是双重拆分法、因果森林。


双重拆分法(Difference in Difference,DID)


因果森林


05

总结一下

可能有些同学会问,既然有这么多种因果推断的方式,那为什么还要做AB实验呢?

其实无论是哪种方式,均存在一定的假设和局限性。归总来看,小流量实验仍然是最科学、最直接的方式,因此,在有能力做AB实验的前提下,优先通过此种方式进行验证。


以上就是本期的内容分享。码字不易,如果觉得对你有一点点帮助,欢迎「关注」「点赞」「分享」哦,我会持续为大家输出优质的「原创内容」~~


实战资料链接:数据分析方法论图谱

面试辅导链接:简历修改及面试辅导



往期推荐

「经验」数据埋点很重要,这些内容你需要掌握『上篇』

「经验」数据埋点很重要,这些内容你需要掌握『下篇』

「经验」站在数据分析师角度,浅谈数据仓库需要掌握到的程度!

「经验」如何搭建“业务化”的指标体系?

「经验」如何30min内排查出指标异动的原因『归因上篇』

「经验」指标异动排查中,3种快速定位异常维度的方法『归因中篇』

「经验」指标异动排查中,如何量化对大盘的贡献程度『归因下篇』

「经验」汇总指标异动的十大原因,涵盖日常90%问题

「经验」时间序列预测神器-Prophet『理论篇』

「经验」时间序列预测神器-Prophet『实现篇』

「经验」带你掌握AB实验最佳流程

「经验」如何创建实验假设?这5步你需要掌握!『AB详解系列1』

「经验」我对用户增长的理解『获客篇』

「经验」我对用户增长的理解『新用户篇』

「经验」我对用户增长的理解『流失预警篇』

「经验」用户画像对于业务如此重要?这几点你需要掌握!

「经验」用户增长渠道归因的五种常见方式

「经验」如何做好探索性分析?这5步需要掌握!

「经验」相关性分析竟能带来如此大的业务价值?

「经验」链路分析竟能带来如此大的业务价值?

「经验」浅谈分类模型在工作中的应用,附上实战场景!

「经验」浅谈聚类分析在工作中的应用

「经验」数据分析这7个场景下,可以利用算法解决问题

「经验」爬虫在工作中的实战应用『理论篇』

「经验」爬虫在工作中的实战应用『实现篇』

「经验」互联网广告基础知识汇总『广告系列1』

「经验」互联网广告出价及计费方式汇总『广告系列2』

「经验」竞品分析需要掌握的思路及诀窍

「经验」用户成长体系对于业务的价值『概念篇』

「经验」用户成长体系对于业务的价值『玩法篇』

「经验」从0到1撰写行业研报的核心思路

「经验」短视频0vv专项分析『实战案例1』



持续追更哦


多一个点在看

多一条小鱼干

小火龙说数据
《数据分析实践:专业知识和职场技巧》畅销书作者。互联网大厂数据科学家,原创数据分析优质内容及经验分享。
 最新文章