GSB观点｜A/B测试在数字时代得到了升级

文摘财经 2024-08-13 09:01 美国

哪种电子邮件的主题更有可能说服潜在客户打开它：是带有感叹号的主题还是带有表情符号的主题呢？哪种主页可以为公司网站带来更多点击量：是文本较多的主页还是文本较少的主页呢？这些日常工作中经常遇到的问题，可能并没有显而易见的答案，但我们有一个简单的办法可以解决这类问题：A/B测试。

A/B测试模型帮助塑造了我们目前所知的网络世界，以及营销、网站设计和各种用户体验在其中运作的方式。“这种测试实验是大多数科技公司的支柱。” 斯坦福商学院运营、信息和技术 (OIT) 教授Gabriel Weintraub表示，“几乎每项功能都会经过这样的测试，以决定是否要在整个平台范围内推出。” 你每次上网时，可能都会在不知情的情况下成为A/B测试的参与者，因为设计师、工程师和营销人员会向不同的用户展示不同的场景，看看什么最能有效地说服你点击、购买或直播。

这种也被称为拆分测试的实验设计背后的概念其实很简单：例如，如果你想完善电子邮件的主题，就可以将收件人随机分为两组。A组收到主题中带有感叹号的电子邮件，B组收到主题中带有表情符号的电子邮件。然后，通过比较两组的平均打开率，我们就能发现哪种主题可以获得更多的点击。

“我们正在进行大量的A/B测试。”斯坦福商学院经济学教授Guido Imbens说。这其实是一个非常保守的说法：据报道，谷歌、微软和其他科技巨头每年都会进行超过一万次A/B测试。大量的研究和资料中都强调了A/B测试对于营销、广告和用户体验的重要性和有效性。“这向大家传达了一个这样的信息，即这种实验真的很容易。” Imbens说。

但是，日益复杂的在线平台开始暴露出了A/B测试方法的局限性。斯坦福商学院的研究者们通过大量合作和研究，正在试图超越传统的拆分测试，并突破线上和线下实验设计和分析的可能性界限。斯坦福因果科学中心的负责人Imbens表示：“有很多问题需要进行更复杂的实验，而我们实际上并不知道最佳做法是什么。” 他曾因自己关于实验设计和因果关系方面的研究成果分享了2021年诺贝尔经济学奖。“我们都应该意识到，除了标准实验之外，我们其实还可以做更多的事情。”

从地块到平台

尽管A/B测试作为一种使决策过程更加清晰的工具在互联网时代蓬勃发展，但它的出现其实比计算机还要早了几十年。A/B测试是简单随机对照试验 (RCT) 的另一个说法，该概念是由统计学家和遗传学家R. A. Fisher在其1925年出版的《研究人员统计方法》一书中编纂出来的。Fisher的许多实验都集中在农业领域：他在整个农田中随机分配肥料，然后通过比较来看哪一种能产出最健康的作物。当时，这种随机化而不是尽可能透明和严格管理的实验方式是革命性的。

随机对照试验很快在生物医学领域流行起来，成为测试药物有效性实验的首选试验方式。在这样的试验中，每组受试者会被随机分为两个亚组；一组接受药物（治疗组），而另一组（对照组）接受安慰剂。受试者并不知道他们被分配到哪个组。然后，对两组的结果进行观察、平均和比较。

到21世纪初期，随机对照试验已被证明对于吸引眼球和提高在线参与度至关重要。Google公司在2000年进行了第一次A/B测试，以确定向用户展示的最佳搜索结果的数量。到斯坦福商学院95届博士校友、经济学教授Susan Athey于2008年成为微软首席经济学家时，该公司Bing搜索引擎背后的工程师每年都会运行数千次的A/B测试来指导决策，例如，哪些结果应显示在页面的顶部。

然而一个很明显的问题是，随着A/B测试变得无处不在，它必须不断发展才能跟上那些需要评估的应用程序的复杂性。例如，Bing的实验以前都是侧重于测试短期变化会如何影响用户。但是Athey注意到，这种以用户为中心的实验其实不太适合用于研究广告商用户，而广告商是微软搜索业务的主要收入来源。“了解市场中的广告商—如何模拟他们的行为，他们需要多长时间来应对变化—这些挑战都是非常严峻的。” 她说。

诚然，关于广告商的实验要困难得多。作为样本，它们的多样性达到了难以处理的地步：有些是价值数十亿美元的公司，其团队致力于优化每个像素，而另一些则是小型企业，没有资源来专注于广告购买。更重要的是，他们还在互相竞争。在任职于Microsoft公司的剩余时间里，Athey提出了一系列的想法来解决传统随机实验的这一障碍和其他一些障碍。在2013年离开Microsoft公司后，她开始与包括斯坦福商学院同事在内的许多合著者一起合作，围绕这些新概念将数学和理论形式化，并提出了新的方法来进行更为复杂的实验。

不像A/B测试那么容易

各种平台上出现的最棘手的问题之一是干扰：当你在某个在线平台上对一组用户进行实验或“治疗”时，它也可能会影响到未接受“治疗”的用户。

以拼车应用程序为例：如果工程师想要测试一项是否要给予司机更高小费的政策，A/B测试模型将规定该项政策更改适用于某些司机而不是其他司机。在实验过程中，如果新政策使得驾驶变得更有利可图，从而使适用于新政策的司机在路上花费了更多的时间，这将同时影响到那些没有使用新政策的司机，因为他们在寻找乘客方面突然面临了更多的竞争。所以，A/B测试模型目前无法准确判断，如果新的小费政策适用于所有司机，会发生什么情况。

有很多问题需要进行更复杂的实验，而我们实际上并不知道最佳做法是什么。
- Guido Imbens

“了解干扰等偏见会如何影响实验结果和决策非常重要。” Weintraub说，他在为Airbnb提供解决市场设计难题的建议时就遇到了这个问题，这是他的专业领域之一。

他解释说，通常情况下，市场设计者都会寻求一个特定的目标—比如，最大限度地提高预订量。在尝试最佳方法时，平台可以控制一系列令人眼花缭乱的杠杆，例如调整费用或分享更多或更少的房产信息。更重要的是，像Airbnb这样的公司是双向平台，使卖家和客户能够直接互动以达成交易。这意味着可以同时观察到两组用户的决策过程。

Weintraub解释说，双向市场平台在使用A/B测试时，必须要在卖方随机或买方随机之间进行选择。但是，当平台进行实验时，例如，随机为某些出租房屋的用户添加更好的照片，处理后的网站页面会“蚕食”对照组的需求。Weintraub说，这种类型的干扰效应使实验结果变得混乱。“这违反了A/B测试中的一个关键假设：假设将一个单元分配给治疗组或控制组，不会影响任何其他单元的结果。”

实验者还注意到租房用户方面的干扰：例如，当他们随机将一些客户分配到房源价格更便宜的组时，就使对照组面临了更多的房源竞争—因为该组中的受试者无法选择已经被实验组抢走的房源。

我记得在走廊上与Guido的一次谈话，” Weintraub说，“我们意识到两方完全独立地同时提出了这个多边随机化的想法。
- Gabriel Weintraub

在试图解决这个难题的论文中，Weintraub和他的同事提出了一个模型，希望能够帮助实验者确定对市场的哪一方进行随机化，以最大限度地减少干扰和偏见。而且至关重要的是，他们补充说，如果供需基本平衡，就应该同时对买卖双方进行随机化，使用他们称之为“双向随机化”的新型实验设计。该方法并没有消除治疗组和对照组之间的竞争，但它可以大致观察其效果并将其纳入结果中。

Weintraub当时并不知道的是，他的斯坦福商学院同事，一直在担任亚马逊公司顾问的Imbens也独立地为同类型的在线平台提出了类似的想法。在他们的论文中，Imbens和他的合著者将这些实验结构称为“多重随机化设计”。两方的主要想法其实是一样的。“我记得在走廊上与Guido的一次谈话，” Weintraub说，“我们意识到两方完全独立地同时提出了这个多边随机化的想法。”

Imbens强调，这些新的随机化设计也可能会在数字市场之外发挥作用。例如，他提到了旨在追踪健康教育传播的发展经济学实验。在这些情况下，由于难以维持对照组，干扰可能会混淆结果。Imbens希望这种新型实验能够成为解决方案的一部分。

等式的另一边

斯坦福商学院围绕新型实验的大部分合作绝非偶然—事实上，OIT教授Kuang Xu和Stefan Wager表示，合作至关重要。Wager是一位统计学家，专注于因果推理、优化和统计学习的交叉领域。Kuang是一名运筹研究员和概率学家，他使用随机建模来捕捉信息稀缺的现实世界应用程序的动态。两人都表示，在各自的学科之间建立桥梁对于解决他们想要解决的问题类型至关重要。

Wager表示，这一点在疫情最严重的时候变得很明显。“在疫情期间，我觉得自己能够处理现有的项目，但没有任何新的想法出现。” 他回忆道，“因此，Kuang和我开始进行半定期的’研究远足’。实际上，Kuang最近发表的一篇关于在工程和统计学之间架起桥梁的论文就是这样开始的。”

公司或科学家不仅想知道某种治疗方法是否有效，还希望能了解它是否帮助了某些人而伤害了其他人，这一点非常重要。
- Susan Athey

当Kuang和Wager考虑如何改进实验方法时，他们主要从实验设计的另一个方面进行了研究。他们专注于研究如何处理实验中收集到的数据以获得更清晰的见解。“从数据中获取洞察显然需要两个方面的要素：如何收集数据，以及如何分析收集到的数据。” Kuang说，“当你进行创新并尝试解决新问题时，可以同时解决这两个方面的问题，也可以解决其中一个方面的问题。” 他说，“毕竟，改变你进行实验的方式可能很困难。所以，你可以仍然按照以前的方式收集数据，然后尝试用截然不同的方式去分析它们。” Kuang和Wager的合作研究还包括在线市场拥堵造成的实验干扰等课题。

在这个方面，另一个富有成果的合作领域是难以确定哪些类型的人可以从实验治疗中受益（或不受益）。 “公司或科学家不仅想知道某种治疗方法是否有效，” Golub Capital社会影响实验室主任Athey说道，“还希望能了解它是否帮助了某些人而伤害了其他人，这一点非常重要。如果你能够分析出来，就可以把治疗方法提供给那些会得到帮助的人，而不是那些会受到伤害的人。” 2016年，她和Imbens引入了一种数据驱动的方法，用于将经历不同“治疗效果”的人进行分组。在此过程中，他们为将侧重于预测的传统机器学习与估计随机实验结果的挑战联系起来奠定了一些基础。

大约在那个时候，Wager—用Athey的话来说，是当时“斯坦福大学统计系的明星博士生”—对这一领域产生了兴趣。他与Athey合作，开发了一种更灵活的方法来了解治疗效果的变化，证明了几十年来一直难以捉摸的随机森林算法的理论结果。他们于2018年和2019年发表的关于“因果森林”的论文是过去几年中被引用次数最多的统计论文之一。他们的方法已被学术界和工业界广泛采用，其中也包括了Airbnb和Uber等科技公司。

Wager在最近的一篇研究住院治疗对精神病患者影响的论文中提出了这项研究的新应用。Wager与他的合著者一起研究了美国退伍军人事务部五年来的数据，其中涉及超过十万名因自杀意念或自杀未遂而被送往急诊室的退伍军人。研究人员将重点放在那些随后住院接受治疗的患者身上，试图确定住院治疗对预防患者在接下来的一年中再次出现自杀企图的效果如何。

然而，至关重要的是，他们的研究结果不能在整个组中进行平均，以免忽视那些住院后自杀倾向增加的退伍军人。相反地，结果根据精神病诊断、既往病史和家庭情况等因素被细分为几个亚组。

“我们的研究证明，你可以明确地找出可以受益于住院治疗的患者群体和其他似乎因住院治疗而受到伤害的患者群体。” Wager说。他的团队使用机器学习工具帮助综合结果，发现个性化的治疗方法可以将患者在去医院就诊后12个月内的自杀企图减少16%，住院治疗后的自杀企图减少13%。“为了做到这一点，我们不能仅仅使用传统的因果推理方法，只观察治疗方法是否对每个人都有效，而是要进一步确定一些亚组。” Wager说。

他对超越一刀切的做法、实现更加个性化的结果，抱有很大的希望。“我们将这篇论文视为早期的概念验证，表明我们其实可以做一些事情。我们希望能够继续与退伍军人事务部合作，真正构建一个他们可以使用的工具。这就是本次活动的最终目标。”

合作者的社区

所有这些研究人员都同意，斯坦福大学作为实验设计和分析方法的研究中心正在蓬勃发展。Imbens指出，校园靠近硅谷是部分原因。他指出：“因为我们能够大量接触到科技公司所面临的各种问题，以及他们正在努力解决的各种问题。”

然而，正如他的同事对精神病患者和大学生的研究所表明的那样，这一研究课题的应用已经远远超出了简化应用程序和平台的范围。“最好的办法就是找到与科技公司相关的研究—同时意识到，这些问题实际上更为普遍，而且我们正在做的事情也与其他环境相关。” Imbens说。

这些领域加强合作的另一个结果是不同学科之间的隔阂消失，Athey强调这也是一种胜利。“这三个不同的领域—统计学、计量经济学和机器学习—以前并没有什么真正的交流。” 她说。然而，在这个多产的研究人员群体中，这些领域现在展开了很多密切的讨论。

“你可能会想，‘这些人怎么能成为同一件事（实验设计和分析）的先驱呢？” Athey说， “但斯坦福大学在很多方面都是开拓者。我们集合了一群对这些问题感兴趣的人，大家都聚集在这里并不是偶然的。”

http://mp.weixin.qq.com/s?__biz=MzI5NDE1ODg5MA==&mid=2653206600&idx=1&sn=d2879bc78d256bc99ae92ebe9684249d

斯坦福商学院

介绍斯坦福商学院的前沿工商管理教研，硅谷的创新和全球商业领袖。分享教授，学生和杰出校友的观点，工作和生活。连接你我和领袖，让我们携手“改变生活，改变组织，改变世界”。

GSB播客｜Think Fast, Talk Smart-112: 说“不”的艺术—关上错误的门可以帮助你打开正确的门

教授访谈｜Voices of Stanford GSB: Susan Athey，技术经济学教授

GSB观点｜一点“幽默地自夸”可能会帮助你找到下一份工作

GSB播客｜Think Fast, Talk Smart-109: 为什么真诚可以促进更好的沟通

GSB播客｜Think Fast, Talk Smart-110: 找到心流并全身心投入的秘诀

校园动态｜走近斯坦福商学院MSx2025届学生

GSB播客｜Daniella Pierson: 为什么失败是衡量成功的标准

GSB播客｜Think Fast, Talk Smart-107: 当仅用语言不足以表达时，如何提高非语言的沟通能力

GSB播客｜Think Fast, Talk Smart-108: 拥抱失败—如何使错误变得有用

校园动态｜斯坦福商学院2026届MBA班级概览

校友访谈｜Voices of Stanford GSB: 尹含玥，MBA’24

音频更正｜if / then - 14：为什么研究很重要

GSB视频｜概念科普：什么是独角兽？

GSB播客｜Think Fast, Talk Smart-105: 如何与机器人聊天—利用人工智能获取所需信息的秘诀

GSB播客｜Think Fast, Talk Smart-106: 驾驭细微差别：如何在不发生冲突的前提下表示反对

校园动态｜斯坦福大学校长就职典礼：开放、探索与希望定义了斯坦福

GSB视频｜课堂笔记：可持续的人类行为

GSB播客｜if / then - 14：为什么研究很重要

GSB播客｜《if / then: 商业、领导力和社会》播客第一季文章汇总

校园动态｜斯坦福大学举行第134届开学典礼

GSB播客｜Think Fast, Talk Smart-103: 如何利用障碍来发挥自己的优势

GSB播客｜Think Fast, Talk Smart-104: 如何成为一名“超级沟通者”

GSB观点｜网红们希望得到品牌的赞助，但不想受到品牌的支配

GSB播客｜Tara VanDerveer：关于成为一名教练、队友和开拓者

活动转发｜斯坦福大学亚裔肝脏中心秋季实习生招募

GSB观点｜人们什么时候才会认为人工智能的风险大于其前景？

GSB播客｜if / then - 12：隐形媒人—算法如何将人与机会配对

GSB播客｜if / then - 13：谁想参选？如何激励人们更好地参与政治

音频更正｜Think Fast, Talk Smart-102: 在沟通中如何让听众感到被理解

GSB观点｜为什么“风险投资思维”不仅仅适合科技投资者

GSB播客｜Think Fast, Talk Smart-101: 建立个人品牌会帮助你更易得到你所想要的

GSB播客｜Think Fast, Talk Smart-102: 在沟通中如何让听众感到被理解

GSB观点｜A/B测试在数字时代得到了升级

活动报名｜斯坦福大学MBA上海宣讲会

活动报名｜斯坦福商学院MBA课程项目宣讲会—北京、上海

GSB播客｜if / then - 10：当良好意图不够时，应以价值观引领企业前进

GSB播客｜if / then - 11：更熟练地掌握商业语言

活动报名｜斯坦福商学院MSx硕士项目宣讲会--北京、上海

课程报名｜斯坦福商学院MBA课程申请开启

GSB观点｜大型机构投资者称他们会利用ESG来降低风险，但主要关注E和G

课程报名｜斯坦福商学院在线商业课程Stanford LEAD报名即将截止

GSB视频｜课堂笔记：如何有效地召开会议

课程报名｜斯坦福商学院MSx一年制硕士学位项目申请开启

GSB播客｜Think Fast, Talk Smart-99: 如何学会甚至能够享受闲聊

GSB播客｜Think Fast, Talk Smart-100: 如何通过沟通创造共享现实

GSB观点｜为什么八卦在每个人类社会中都会出现？

GSB播客｜if / then - 8：数字货币是金融的未来吗？

GSB播客｜if / then - 9：与机器人的关系将如何改变我们？

校园动态｜回到课堂：探路者项目

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

GSB观点｜​A/B测试在数字时代得到了升级

GSB观点｜A/B测试在数字时代得到了升级