从淘宝用户增长到生成式大模型:5 年,我的思考变了?

科技   2024-09-14 10:16   辽宁  

作者 | 高嘉峻
编辑 | Kitty
大模型技术的崛起正以前所未见的方式重塑软件开发领域。它凭借强大的语言生成、理解及创造能力,开启了人机交互的新纪元,是软件开发理念和实践的一次深刻变革。2024 年,QCon 全球软件开发大会以拥抱变化、全面进化为主题,关注技术前瞻性和实用性,提供有价值的行业洞察和参考,旨在帮助技术团队降低探索新技术的时间成本,更快地将创新技术和最佳实践应用到实际业务中。会议即将于 10 月 18-19 日开幕,访问官网了解更多详情:https://qcon.infoq.cn/2024/shanghai/schedule
题    记

2019 年,我在 QCon 北京站作了一个题为《淘宝用户增长的 5+1 个策略》的分享。彼时 Growth Hacking 的概念进入中国已经过去了 4-5 年的时间,恰逢智能手机用户规模和时长到了第一个平台期,第一波流量红利见顶。那段时间我们在工程上做了诸多创新来应对环境变化给引流获客带来的新挑战,于是我在 QCon 分享了淘宝在用户增长业务上的技术策略和我个人的一些心得。后逢新冠疫情,经济周期,区域争端,生成式大模型,降本增效,被各种关键词轰炸,尤其在大模型的冲击之下,这个世界一定发生了改变。过去几个月我满怀好奇,花了很长时间去了解和学习大模型相关的知识,与许多不同行业和领域的朋友沟通讨论,结合过去我在工程领域积累的知识和经验,总结了以下几个观点与大家分享:

  1. 用户增长从“用户规模增长”过渡到“精细化用户运营”

  2. 用户增长是中国另一个“超车”的领域

  3. 大模型下放更多能力,用户增长更普惠

  4. AI 加到底加的是什么

5 年前分享的是经验,而今天分享的是想法,主观且有些并未验证,仅供参考。

观点 1 :用户增长从“用户规模增长”过渡到“精细化用户运营”

过去相当长一段时间里,我们说“用户增长”其实是在说“用户规模”的增长,甚至于更狭隘的“引流获客”。“用户增长”被认为是一个以 DAU 甚至 MAU 为目标,以引流为主要手段的业务。2019 年以前国内移动互联网用户规模持续扩大,处在巨大的流量红利期,各家互联网产品的首要任务一定是争夺新用户,扩大用户规模。所以我们才会在各种渠道看到“ xxx 亿人都在用的 xxx ”这样的广告词。在这个阶段即使大家也偶有谈起“开源节流”、“长周期运营”等这类的概念,但身体还是非常诚实地都铺在了引流获客,做大注册用户规模上。进入 2020 年后,随着流量红利消失以及在大环境下行的背景下,“用户规模”这个目标被越来越多公司抛弃,转而关注更实质性的指标。也就是在这个阶段很多大厂财报中也不在出现 DAU/MAU 这样的指标了,取而代之的是购买用户(没过多久这个也消失了)、订单数、GMV(一直都在)等。

在这样的变化之下,我想我们需要从更本质的角度去解构“用户增长”这个概念。我认为“用户增长”不应该被作为一个业务板块的目标而解释为“用户规模增长”,应该是一种经营视角和模式升级,即:“以用户视角经营以获得业务增长”。 什么是“以用户视角经营”?如果我们以一个消费品牌为例,产品视角是我要卖多少货,看的是 GMV = 笔单价 x 订单数,要关注:有多少个 SKU,销量如何,货单价和利润率是多少,覆盖了哪些渠道,品牌影响力等等。而用户视角则是我要服务多少用户,看的是 GMV = 单用户价值 x 用户数,要关注:我有多少潜在 / 潜力 / 常规 / 忠诚用户,不同分层用户的分布和规模怎样,他们是什么画像,单用户价值等等。

那么用户视角又好在哪里,为什么更先进呢?我粗浅的解释是:企业赚的钱是用户带来的,一个消费品牌的 GMV 是每一个买家一笔一笔买出来的,一个互联网平台的广告收入是用户一下一下点出来的,所以关注用户更加直接,更接近本质。既然如此为什么要到 2020 年代才出现这个概念,之前大家都在干什么?我认为至少有两个方面因素:

一方面是供给侧越发成熟,增长空间向消费侧转移。 如果拿电商平台举例,“中国制造”的供应链经过几十年的发展,在这个时间点上已经非常成熟,甚至开始出现供给过剩的苗头。几家大的电商平台在那个时间点也基本都完成了商家和店铺的原始积累,开始进入治理阶段。整个环境不再是平台找不到卖家,而是卖家需要更多渠道,哪怕是一个新电商平台,只需要通过招商就能快速积累相当规模的卖家,不需要花精力去培养和教育新卖家。推而广之到更多的互联网平台、服务和产品,随着互联网,移动互联网,发展越发成熟,快速搭建一个 B 端形态(平台、服务或产品)成本越来越低,更多的精力要放在 C 端。

另一方面“大数据”技术发展给“用户视角”带来了可能性。 过去,数据采集、存储、处理、分析整条链路上的成本都非常高,以至于企业只能承担处理数十个产品 SKU、几百个销售渠道这种量级数据的能力。随着大数据科学的发展,移动互联网普及,从采集到分析整条链路的成本大大降低。只在少数领域(如:金融、高科技等)才有所涉及的数据分析和数据科学方法得以普及,过去公司里辅助少数高层决策的数据支持能力下放到业务一线,处理成百上千万用户数据的成本下降到可接受范围内了,自然用户视角也就应运而生。

引流获客和用户规模只是“用户视角经营”的一个角度,或者一个环节。只是在流量红利期这个环节最关键,我们以偏概全的将“引流获客”解释成“用户增长”。当然,概念归概念,到了应用阶段还是要识别重点,有所取舍,必须用一个具体的“环节”解释概念才能落地实施。对于一个新起步的互联网产品来说“规模”是原始积累,仍然是“用户增长”的主要目的,对于绝大部分跨过“原始积累”的产品用“精细化用户运营”来解释“用户增长”更合理,也就是提升单用户价值的重要程度赶上甚至超过用户规模。通俗的说“精细化”就是:通过数据分析和挖掘的方式把用户从各个维度进行细分,针对不同用户群体提供个性化服务,展示不同的产品,制定差异化运营策略,通过这种方式提升单一用户价值,最终获得更高的整体用户价值。这个过程中除了基本的数据采集、存储和分析技术外,还依赖用户模型、用户画像和圈选、A/B 实验、多策略投放、等等技术。随着 IT 技术进步和成本下降很多几年前看起来成本过高的方案在今天都变得可行且有效。而以上提到的各种技术,每一种都值得相当篇幅具体讨论,本文就暂不展开。

观点 2 :用户增长是中国另一个“超车”的领域

过去一两个月,在与一些做海外投放业务的朋友交流的过程中,我发现相较于国内流量市场的模式和玩法这几年的飞速进化海外流量市场的发展是很有限的,主流的流量模式还是最经典的那些 CPX 投放,而国内早早就演化出了 RTA、OCPX、DPA 等等新模式。每一种新投放模式的诞生都意味着突破旧模式的瓶颈,把流量精准性和转化率提升一个新台阶。 一个新技术新理念从硅谷传到国内,这又是什么神秘的东方力量在短短几年时间就进化出这么多花样。

其实也不难想象,主要还是过去几年时间里移动互联网带来了数据大爆炸。首先,超过 12 亿活跃用户的单一市场所生产的数据规模碾压任何一个海外市场,另外,数据伦理和数据合规发展根本不可能跟上数据“爆炸级”的发展速度,带来国内互联网行业在数据规模,数据维度,数据类型,数据流动性等等多个方面都比海外市场有巨大优势。流量红利期空前的获客需求,绝对大规模的数据量,数据合规政策不完善,几个因素叠加:旺盛且多样的需求作为动力,巨大规模的数据体量作为基础,合规尚不完善带来更大的发挥空间,“用户增长(不管是狭义某个具体环节,还是广义的整个模式)”这个托生于“大数据”的概念就必然疯长,在这个过程中不论是方法论,还是技术能力都会快速迭代,不停的进化出更先进的一代。

近几年随着国内数据伦理和数据合规越发成熟,数据满天飞的乱象极大程度改善。此外,为了针对过去野蛮发展时期诞生的各种新模式监管部门和企业共同制定了新标准,研发新技术来应对数据风险。最直观的是智能手机设备识别 ID 新标准的 OAID 和 CAID,还有 RTA 模式的人群加密与混淆,数据采集用户协议,等等。这些措施不仅仅推动国内数据伦理和数据合规越来越完善,更主要的是解决问题的同时让这些新模式和新方法得以更加规范、更可持续的运行下去。解决问题的同时,并没有开倒车,很好的保持了先进性。反观海外市场,尤其是北美,是理念和技术的发源地,起初的先进性毋庸置疑,但在以上提到的三个条件(需求、基础和环境)上都不如中国,反而被超车。

上述的是我看到在“引流获客”这个环节国内和海外的区别,如果回到“精细化用户运营”这个概念上,我认为国内仍然有孕育出更先进模式和技术的土壤。

从需求角度看,所谓的移动互联网下半场从“用户增长”的角度可以理解为:流量红利耗尽,如果完成了用户规模原始积累,要开始关注如何持续提升盈利能力,把规模变成利润;如果尚未完成用户规模原始积累,要探索更先进的获客方式,对冲掉红利耗尽引起的高成本。不管是“提效”还是“降本”无疑更加细分用户,更加个性化的方案,方案和人群匹配更精准是最直接有效的方式。过去的两三年时间里,我们已经看到许多不同规模、形态的互联网平台(服务、或产品)都通过“精细化用户运营”在“提效”和“降本”上取得结果。

从数据基础看,不论是数据规模还是可操作性都有成熟的积累。超过 12 亿活跃用户的市场规模,成熟的数据采集和存储方案,过去相当长一段时间内积累的丰富的数据分析方法论和数据应用能力,为精细化用户运营提供了良好基础。

从空间上看,经历了刚刚经历流量红利期的跑马圈地,在用户运营上还处在起步阶段,方案相对粗放。在用户识别和细分,以及方案个性化上都还有很大的发挥空间。另一方面,数据伦理和数据合规的政策与技术已经发展的相对完善,相关的风险基本都有相应的应对措施。更主要的是政策和技术并非一刀切的限制企业流转和使用数据,而是提供了合规且有效的方案,支持企业用好数据。这两方面都是做好“精细化用户运营”的空间条件所在。

相信在良好的环境和土壤上,建立“精细化用户运营”的观念,做好相关技术建设(数据采集、用户画像、人群圈选、多方案投放、A/B 实验)并形成有效联动,形成体系,我们的“用户增长”一定可以在下个阶段也取得先进性优势。

观点 3 :大模型下放更多能力,用户增长更普惠

大模型的发展方兴未艾,我们不得不思考大模型会给“用户增长”带来哪些改变。回看过往技术发展给行业带来改变的历史往往是:新技术造成先进能力成本下降,过往需要消耗较高成本,仅能服务少数人的能力下放到更广泛的范围,更加普惠。数据技术发展造成采集 / 存储 / 分析成本下降,把数据分析和应用能力从服务少数领域下放到多数领域,从服务少数人下放到服务多数人,增长黑客应运而生。我认为大模型技术也将以同样的的方式改变一些领域,以这个范式去看用户增:哪些先进能力消耗成本高,效果好,但应用范围窄,这样的能力是否有机会被大模型跨越式的降低成本。

在国内互联网行业,往往大厂的用户增长方法论和技术能力领先行业平均水平。究其原因,大厂有能力在用增业务上投入的预算足够大:

  1. 场景丰富。 互联网大厂的产品形态丰富,也往往能形成矩阵,有协同效应。而且,在业务预算相对充足,试错空间大。所以在这样的土壤里更容易生长出先进的领域方法论,从业人员也能快速积累专业经验。

  2. 人才密度高。 不论是聚集足够多行业专家,还是在足够大的业务规模和足够丰富的业务场景下去训练从业人员,都使得大厂用增团队在专业经验和先进理论方面都远远领先行业平均水准。也就是坊间流传的那句话:用增领域的专家都是用钱喂出来的。

  3. 基础设施完备。 大厂在工程和数据基础能力上比较完备,不论是数据采集、存储和分析的设施,还是营销、实验、乃至数据可视化等工程方案,大厂往往都具备成熟的解决方案,与整个业务的产品矩阵也能很好的协同。

大模型能处理极其繁杂的输入信息,并依据输入差异,在一定规则下能规划不同的数据处理逻辑,并给出规则描述下相对最优的结果。放在用户增长领域里,大模型将有机会把诸多过往只有大厂才玩得起的策略下放。

  1. 机会挖掘: 机会挖掘通常可以包括机会人群和机会策略,具体工作往往属于数据科学领域,通过一系列数据科学技术,发现有机会给整体目标带来有效增长的空间和机会。在海量数据中发现某一画像的用户在特定指标下表现显著低于平均水平,且这部分用户规模能对整体目标带来显著影响,在特定指标下也有提升到一定水平的空间和机会。那么通过数据技术准确定位这个画像的用户并以人群方式与其他业务产品协同,采取针对性业务策略进行干预,这个人群就是机会人群。另一方面,在海量数据中找到产品漏斗中的显著短板或能够实现用户转化的关键方案,也就是利用数据技术发现产品中的问题或机会,用更具体的描述就是找到一个产品的“关键事件(Crystal Event)”和“魔法数字(Magic Number)”。

目前我们看到市场上已经出现功能非常强大的 ChatBI 类产品,主要事围绕“文生 SQL ”和“数据可视化”构造的 Agent,这两个能力是数据分析和挖掘的最基本能力。构造内化具体数据分析法或调度机器学习算法的模型,结合数据工程给智能体提供丰富且有效的输入数据,将有机会通过处理海量数据替代传统数据科学家的经验,给出有效的结论。把具备不同确定性能力的模型和功能整合成 Agent,机会挖掘这个门槛相对较高的能力将有效下放到更广泛的使用场景。

  1. 海量计划:“量变积累质变”在用户增长的诸多策略中屡试不爽,拿效果投放举例:在同一个流量渠道不同的活跃计划规模直接决定了成本优化的上限,国内头部投放业务在市场上的活跃计划数往往能达到数十万甚至百万级,而转化成本与数万级投放计划低 80% 以上。最直观的原因是在更大的投放计划规模下,投放匹配算法和优化手段有巨大的发挥空间,更精细和准确的匹配策略极大程度优化成本,提升效率。投放海量计划的势必消耗高成本,这些成本除了显而易见的生产素材和创建计划,随之而来的优化调整、数据分析、计划治理等工作的成本都随着投放计划规模的提升显著提升。这些随着计划规模提升带来成本提升往往是重复性工作提升和繁杂程度提升。举例来说,分析 1 万个计划的和分析 100 万个计划的投放效果的区别除了效果分析方法的次数相差 100 倍以外,还涉及到解读 1 万个初步结论和 100 万个初步结论的差异,可能出现额外的异常值发现、交叉分析、对比分析等。

新技术将有机会通过智能体替代上述这些依赖数据科学家和分析师的专业经验和人工的操作。生成式模型(文生文 & 文生图)辅助生成海量素材,内化投放流程的模型生成投放计划,数据工程回收并以新的结构化要求建立符合 AI 要求的数仓,专注不同数据分析法模型组合而成的数据科学智能体,整合这些不同的功能模块,并通过工程手段有效协同这些功能,将形成一个具备处理海量计划的投放智能体。

  1. 盯盘优化:除了上文海量计划这种空间维度上规模量变上积累的效果质变,还有时间维度上操作频率量变积累效果质变。任意一个方案的转化效果总会经历效果爬坡期 - 最佳效果期 - 效果衰退期 - 长尾期,最终成为无效果的僵尸方案。往往我们需要在衰退期之前,对方案进行调整尽量延长最佳效果期,甚至寻找二次爬坡;或者用新方案替换旧方案,确保整体策略效果维持在较高水准。这就要求:第一,实时监控方案效果数据,即所谓的盯盘;第二,及时反应快速执行相应操作,或更新,或替换。

盯盘和反应两个要求除了对流数据处理和计划治理的工程能力有要求外,还依赖人工操作。当前技术水平完全满足工程能力要求,反而是人工成本是瓶颈,导致我们只能在一些关键时期才能采取这样的高频操作(如:双 11 高峰期,等)。而整合大模型和工程能力的智能体就能很好的解决这个问题,同时盯盘海量计划,并做出及时反应。

除了上述举例的三种能力,用户增长和衍生的各项业务中还存在大量能力下放的可能性,对中小企业是一个享受技术红利的机会,对于大厂来说则是一个突破能力瓶颈再上一个台阶,或者大幅降低成本的机会。

观点 4 :AI 加到底加的是什么

从“用户增长”领域延展开去,在 AI 革命如火如荼的今天有哪些更抽象的方法论?我花了更长时间在 ToB 方向的工具类产品的思考上,因为我认为任何产品一定会存在“能力”与“易用性”之间的权衡和取舍,而 ToB 工具倾向“能力”更强,而 ToC 则倾向于“易用性”更高。所以,往往一项新技术更容易在 ToB 领域先被应用,随着技术逐步成熟会延伸到 ToC 领域,影响更多人,直到改变世界。显然当下 AI 大模型还处在成长期,应用在 ToB 工具上的可行性更高,基于此我片面的认为:

  1. 模型训练 vs 应用建设

模型训练(包括微调)是素质教育和能力训练,应用是职业培训和工作流程。在设计智能应用的过程里我们常常会取舍:一个功能到底是通过微调实现,还是通过工程( RAG/Agent/Prompt )方式实现?回答这个问题我们要先认知“模型”本身具备哪些优势,以及应用过程中的局限性会带来哪些劣势。讨论上述问题其实是讨论一项“知识”要通过什么方式被模型习得。

无论是基模训练还是微调都是干预模型本身使其习得知识。优势在于知识内化在模型内部,这部分“补充知识”能更好的与基础知识融合,应用过程中能模型能给出更协调、整体性更好的专业输出。内化“专业知识”的模型也更容易扩展,扩大使用范围除了支付额外算力外,几乎没有其他成本。

模型训练和应用两个过程是割裂的,模型训练是一个离线操作,而应用则是在线过程。离在线本身存在实时性的矛盾,而且模型训练(尤其是基模训练)的高成本会进一步放大这个矛盾,使得习得“补充知识”的实时性差,调整周期长。基于此,我认为稳定的知识(或能力),如:计算能力、编码能力、分析方法等可以考虑通过训练内化到模型中(当然不是一定,而是可以考虑)。而相对不稳定的(生命周期短会快速失效的,演化速度快需要高频更新的,个体差异大存在及时差异的,等)知识(或能力)就要采取能应对高频迭代的方案,如:RAG、Agent、提示工程等。通过更加成熟,成本更低的操作来应对这里的“不稳定”,如:爬虫 + 标记工程支持的信息库可以把不稳定的知识迭代转化为“治理”问题。

另外,基模训练和应用过程的模型训练(微调)也存在割裂,简单的说通过微调给基础模型带来的增量能力很难继承到一个更新版本的基础模型中,又或者微调增量与新版本基模的适应程度存在极大不确定性。更何况当前基模的版本更新往往会带来能力跨越式提升,很可能出现新版本基模在处理具体问题的能力上甚至优于微调过的旧版本模型。

所以,对于绝大多数 AI 应用来说要谨慎参与训练,更多思考是否能把新问题转化为老问题,使用更可控的方案解决。更可控的方案不仅意味成本可控,更重要的是我们能更好的控质迭代节奏,使能力迭代(演化)过程更可控。

  1. 交互升级背后的信息模型

最适应大模型,大语言模型,的交互方式一定是“对话式”交互,“对话式”交互在易用性和灵活性上带来的提升显而易见。但我认为集成大模型能力的新产品如果仅仅带来“灵活性”和“易用性”的提升,知识在降本上做到了有限的“量变”。想要在能力提升上制造“质变”,需要重构更底层的范式。从信息模型的角度去看产品,传统设计中往往有两个角色:使用者和工具。产品流程的信息流是单向的:从使用者流向工具,工具通过既定流程处理信息,把结果反馈给使用者。最典型的就是 SaaS 应用,通过把专业经验和先进方法论固化成工具流程(表单串联)来输出价值,使用过程中也是典型的使用者向工具的单向输出。

大模型的加入有机会让这个“使用者 - 工具”范式进化成“使用者 - AI - 工具”三种角色的范式。AI 之所以能被认为是一个独立角色,而非是对使用者或工具的改造,最重要的原因是 AI 成为能把独立信息引入系统的信息源,并改变系统中的信息流向。

使用者和 AI 二者之间建立双向信息流,“使用者 -> AI ”的信息流是对经典的“使用者 ->工具”信息流的升级的一部分,是使用者为系统输入信息,最典型方式的就是提示词。“AI-> 使用者”的信息流是创造性的,AI 为系统输入信息,通过对话的方式给使用者提供建设性灵感或建议。以典型的电商智能商品管理工具,AI 能通过阅读 VOA,读取热销商品,获取热点资讯等方式转化为 AI 的知识,在管理商品的交互中为用户提出更符合市场环境、更匹配用户需求的商品结构和内容建议。“AI-> 工具”信息流是对“使用者 -> 工具”升级的另一部分,一方面通过更直观的“对话”式交互提升执行效率,更重要的是编排更个性化的执行流程,创建“最恰当接”。

由于系统的信息流从一条变成三条,所以为了应对这个升级就需要一个具备调度能力的中控模块,这是经典范式不具备的。另外,新范式最重要的变化是 AI 成为系统新的信息源,这也是新范式最大价值所在,所以 AI 信息源的丰富度和准确性运营是这个系统能力水准,甚至系统是否具备进化能力的关键所在。

  1. AI 原生架构的技术红利

上文提到了各种应用模式和设计范式的区别,这些理论能够落地执行依赖技术架构的升级。还是以 SaaS 应用举例,我称传统 SaaS 的架构为“ Function-Based ”基于功能的架构,具体的就是对系统功能极致抽象为灵活性提供支持,基于专业经验和先进理论对极致抽象过的功能做整合,成为由表单和按钮串联的工具链。这个 SaaS 的价值体现在通过工具链体现出来的经验和理论,以及支撑这些经验和理论得以执行的功能抽象,是通过“最优解”发挥作用。新范式两个关键点是:动态编排流程和引入新信息源,“AI-Based”基于人工智能的架构就需要适应并放大这两点进化。

寻找“最恰当解”问题具体的是把抽象功能点动态编排为流程,通过“对话”式交互对使用者屏蔽动态编排大量流程可能带来的易用性灾难。基于此,对系统功能不仅仅要极致抽象,每一个抽象的功能点要有同构的接口协议,并且被明确标注每个功能的作用,为 AI 自主编排功能流程打好基础。无论是使用垂直领域的小模型,还是通过微调或其他工程手段构建的智能体,把抽象功能和协同作为知识传递给 AI,利用大模型推理出最恰当的组合方式。

更重要的 AI 信息源丰富度和准确性问题可以被转化为数据工程和数据治理问题。建立多种信息获取方式多渠道持续更新获取有效信息,通过数据工程合理组织数据结构建立信息数据库,建立数据治理机制保证信息数据具丰富实时有效,通过 RAG、提示工程等方式建立模型读取数据、定位数据通道。做好 AI 引入新信息的储备和通道,通过持续提升 AI 引入信息的数量和质量提升系统能力。

上述的 AI-Based 架构仅仅是一个非常“形而上”的理念,甚至不能称其为理论。一个好的应用架构,除了需要一个先进理念作为起点,更重要的是要结合具体的系统目标和实际技术能力,进行合理的创新和取舍。这段内容或许不能说明什么是好的智能系统架构,但至少能描述什么是未能摆脱传统模式的架构。

本文总结的 4 个观点是我对过去一段时间「用户增长」的个人思考和沟通交流的简单总结,可能有一些局限性,但是我当下认知水平下对于 AI 的理解。未来,我希望能有更多机会去实践和验证这些观点,能结合具体领域具体目标把这些“形而上”的理念转化成具有实践经验支撑的理论总结。也希望未来能有更多机会跟不同领域和行业的朋友进行更多交流,吸取更多信息,逐步加深对 AI 应用的理解。

会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说,QCon 还是太全面了。现在报名可以享受 9 折优惠,详情请联系票务经理  17310043226 咨询。

InfoQ
为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。
 最新文章