作者按:本文节选自我在2024全球产品经理大会(PM-Summit)上的主题演讲,因篇幅有限,有所删减。获取PPT请至文末。
很高兴全球产品经理大会(PM-Summit)从2009年走到今天已经15年,见证了一大批优秀产品人的成长和改变世界的产品的诞生。从去年开始,互联网产品因为大模型的加速,而进入新一轮的爆发周期。
为什么大模型对我们整个产业影响这么大?我在年初提出大模型正在给计算产业的每一层次都带来了范式转换,我将其归纳为三个层次:计算范式、开发范式、交互范式。
一、计算范式:指从以CPU为中心的传统图灵-冯诺依曼的计算架构、到以GPU为中心的神经网络计算架构的转换。
二、开发范式:指从传统的命令式的编程、到自动代码生成、面向大模型编程范式的转换。
三、交互范式:指的是从传统GUI(图形用户界面)、TUI(触控用户界面)到LUI(自然语言用户界面)的转换。
回顾计算历史上的一些技术革新带来的范式转换,我们会发现:PC领域:发生了计算范式和交互范式的变化,但开发范式与之前并无太大区别。互联网领域:带来了计算范式和开发范式的变化,但交互范式仍沿用PC时代的GUI。移动互联网:开发范式未变,主要变化在计算范式和交互范式。云计算领域:发生的计算范式和开发范式的转换,交互范式没有变化。VR/AR领域仅仅改变了交互范式,但计算范式和开发范式没有变化。
大模型驱动的这一波AI技术革命的独特之处,在于它同时带来了三大范式换。这也是这两年整个 IT 行业、每一层次都感到“热辣滚烫”的原因。
关于计算范式和开发范式,我在4月份的机器学习技术大会(ML-Summit)和7月份的软件研发技术大会(SDCon)上谈得比较多。今天是产品经理大会(PM-Summit),我想重点谈谈对产品影响最大的变量,交互范式的变革。
作为产品人,我们都知道每一代交互革命都是计算产业中极具革命性的力量,最核心的它能将计算的潜力释放到更广泛的人类范畴。今年我们在交互范式方面看到了许多创新技术,例如:多模态和 Agent。它们都会极大地丰富自然语言交互(LUI)的内涵。
LUI将逐步取代传统结构化输入的中间环节,例如:菜单、导航、表单等在LUI下可能就不再必要。只要我们的意图表达清晰,结果就能以更自然的多模态方式呈现。
这种方式还将有望拆掉孤立应用间的壁垒,实现应用间的无缝集成。例如,当我们出差需要订一个酒店时,可能需要在地图App、天气App、机票酒店商旅App之间来回切换,判断距离、天气等因素。但在未来,我们只需表达意图,系统自动调用各种服务、并进行推理判断,给出最佳结果。传统App之间的鸿沟就会被自然语言抹平。也许在未来的手机形态中,我们将看不到今天这种一个个独立的应用程序了,取而代之的是由LUI无缝集成的各种服务。
这方面最值得关注的是,今年苹果全球开发者大会(WWDC)推出的Apple Intelligence。在交互革新方面展现了深思熟虑的设计。作为引领了PC时代的GUI(图形用户界面)和移动时代的TUI(触控用户界面)两代交互范式的公司,苹果在交互革新上可谓“一直在引领,从未被超越”。
Apple Intelligence展示的交互革新有三个关键点:
1. 个人场景(Personal Context):包含丰富的、个性化的、别的地方取不到的数据。这是AI时代巨大的护城河。
2. 本地和云端的协同模型:平衡了模型性能、算力的需求。
3. 跨应用程序的任务处理:这个就是支撑我们前面讲的“拆掉孤立应用间的壁垒,使用LUI无缝集成各种服务”的关键。
去年6月在上海举办的全球产品经理大会(PM-Summit)上,我提出了"ParaShift Cube"(范式转换立方体)的概念,引起了业界非常广泛的讨论,这是在美团王兴的“四纵三横”产品分析框架基础上的进一步发展。去年8月份还和王兴在望京见了一面,就这方面在大模型领域的发展深入交流了一次。
这个“范式转换立方体”分为X、Y、Z三轴:
- X轴是技术轴:计算、连接(包括PC互联网、移动互联网)、智能。
- Y轴是需求轴:信息、娱乐、搜索、社交、商业等最具scalability的需求。
- Z轴是模态轴:这是我新加的变化轴线,从文字、图片、音频、视频,到空间计算。
观察过去一年大模型的技术发展,我们会发现它对需求轴(Y轴)的颠覆力度是不同的,或者讲它影响的节奏是不同的。做产品 timing 是非常重要的。我们下面做一个简要的分析:
首先,在生产力(如办公软件、效能类软件、设计软件等)、搜索和信息(如新闻头条)等领域,大模型的颠覆速度很快。因为大模型的智力水平已经超越了普通人类,最新的GPT-o1 已经达到了博士水平,在某些细分领域超越了人类专家。大模型在这些领域能够大幅度帮助人类Save Time,提升人类的效率。这些活动都是典型促进人类分泌“内啡肽”的活动。随着算力成本的指数级降低,可以期待大模型会带来类似蒸汽机一样的生产力革命。
但另一方面,大模型的情商仍然很低。大模型目前不太擅长我们在互联网领域所Enjoy的那些“Kill Time”的、为人类提供情绪价值的活动,典型的如娱乐、社交,甚至电商等,这些都是典型促进人类分泌“多巴胺”的活动。在这些领域,大模型的颠覆力相对较慢。
虽然有些人可能沉迷于Character.AI等平台,认为它能扮演“灵魂伴侣”。我去年也在硅谷跟 Character.AI 的一些朋友聊,实在来讲它的用户只是一个很小众的群体。大模型在情感、社交领域能否扩展到大众用户,我持极大的怀疑态度。
不过,这并不意味着大模型在这些领域完全没有带来创新的机会。以GenAI或者说AIGC这样的生成式AI来讲,它大大降低了娱乐、社交、电商等领域的内容创作门槛。如果我们回顾互联网的发展历史,从门户网站到Web2.0,再到图片社交,再到生成式AI,我们会发现内容创作门槛在不断降低,这是一个非常重要的产品力。
举个例子,即便到了今天,大家问身边的很多用户、可能都不知道如何在微信朋友圈发纯文本。微信并不是不支持这个功能,只是把它藏起来了(长按拍照按钮),一度导致很多用户骂微信、骂张小龙。但这样的设计实际上反映了微信团队非常深思熟虑的产品智慧,很简单,对比一下“发图片”VS.“发文字”, “发文字”能把全中国大概百分之六七十的人过滤掉,而“发图片”只要打开摄像头就可以创作,它的创作门槛大大低于“发文字”。
降低创作门槛对产品非常重要。而大模型在这方面能够提供AIGC工具来大大加速这一过程。但创作什么样的内容来取悦人类,现在还需要人类来主导。大模型在这方面、因为情商的欠缺还比较乏力。
如果大家了解“内啡肽”和“多巴胺”的区别,大家应该能够理解我下面的这句话:大模型提供的是“内啡肽”式的愉悦 – 人类费劲九牛二虎之力解决复杂问题后、获得成就感的那种愉悦。但"多巴胺"带来的愉悦,声色犬马等感官层面的刺激,目前大模型还相对乏力,这方面人类更懂人类 认识到这方面的差异,对我们借助大模型来实现不同领域的产品创新,很有价值。
接下来,我想重提一下去年我在全球产品经理大会上提出的:计算和连接的“钟摆效应”:
1. 连接1.0:1840年~1940年,以电报、电话、广播、电视为主。
2. 计算1.0:1940年~1990年,从ENIAC到PC,这是一个计算的革命。
3. 连接2.0:1990年~2020年,以Netscape和Yahoo的出现为标志,历经Web 2.0、移动互联网、云服务。
4. 计算2.0:2020年至今,以Transformer引领的大模型为标志,人类进入智能计算时代。
有趣的是,这个钟摆效应呈现指数级的加速:连接1.0用了100年,计算1.0用了50年,连接2.0大约30年。按此推算,通用人工智能(AGI)发展的高点可能在2030~2035年左右。这与库兹韦尔(Ray Kurzweil)在《奇点临近》中关于AGI的预测非常接近,这个纯属巧合,因为我和库兹韦尔使用的预测方法完全不一样。
需要指出的是,连接和计算并不割裂,而是互相成就的。当连接快速发展时,就会带来源源不断的数据,这对计算就提出了更高的要求、从而促成计算的革命;当计算发展到高点时,对数据又提出了更多的要求、从而又促成了连接的革命。
连接(互联网)本质上解决的是信息匹配,而计算(特别是AI)本质上解决的是智能供给。这两种逻辑导致互联网时代的很多思维方式和商业模式并不能简单地沿用到AI时代,尤其是不能沿用到由大模型引领的AGI时代。互联网时代的产品逻辑和模式终将在AGI时代被颠覆。
而且这种颠覆正在加速进行。今年以来,我们看到大模型在三个方向上取得了飞跃式的发展,分别是:多模态、智能体、和强化学习带来的推理提升。
先来谈谈多模态。年初,OpenAI推出的Sora在视觉模态领域引起了巨大轰动。虽然在Sora之前,视频多模态已经有人在做,但为什么Sora让大家很震撼?是因为Sora实现了视频领域的Scaling Law。这里的奥秘在于Patch,Patch在一些学者眼里并不算很大的创新,但是在工程领域,我认为它是开创视觉Scaling Law的核心。就像GPT使用Token统一了各种自然语言的元表示一样,Sora使用Patch实现了视频数据的元表示。有了统一的元表示,就能够发挥Scaling Law的魔力,大规模算力+数据训练,就会展现出极强的涌现能力。
再来谈谈Agent 智能体。如果说检索模型是“知道和了解”,生成模型是“认知和创造”,那么Agent就是“行动和规划”。
去年大模型刚出来的时候,很多朋友都会说,大模型终有一天你给它讲一个需求,它会一步到位,把所有东西都帮你干完了。但仔细思考,人类智能不是这样子的,并不存在一个一超多能、一步到位的智能。智能需要迭代、试错、大规模协作、和使用工具。这正是Agent带给我们的。
最后来谈谈推理的发展。最近GPT o1通过强化学习和自我对弈(Self-play)为模型的推理能力带来极大的提升,再一次实现了推理侧的Scaling Law。我知道很多学者去年都认为大模型预训练的方式,是统计式的学习,类似鹦鹉学舌。但是GPT o1出来之后,我相信这个声音彻底没有了。自然语言蕴含人类推理,这是1940年左右著名哲学家维特根斯坦就指出的。
虽然OpenAI在这方面的具体做法仍是个谜,但业界普遍认为他们使用隐式思维链(Chain of Thought,CoT)使模型学会了中间过程的推理路径,加大推理计算时间,使得大模型完成了从系统1的“快思考”到兼备系统2的“慢思考”的飞跃。
经过多模态、Agent和推理的飞跃式发展,大模型完成了从去年的“文科生”到今年的“理科生”的能力转变。
最后,我想谈谈计算任务模式的变革。在大模型之前,计算任务主要是检索模式,核心是:存取、查找、计算。无论大家在本地计算机系统操作各种文件,还是在互联网上使用搜索、社交网络等,其任务的本质都是检索模式。GenAI/AIGC带来的生成模式,核心是:学习、预测、创造。随着强化学习和智能体的发展,我们正在向推理模式演变,其核心是:推理、协作、执行。
谈谈数据,我们都知道“数据”是智能的燃料。随着大模型在参数规模和算力上的不断提升,互联网上的公域数据很快会被用尽。虽然很多人在尝试合成数据或机器生成数据,但这个领域存在风险且不稳定。我觉得非常值得关注的是:人机共生数据。与互联网上的静态的、显性的、结果数据不同,人机共生数据是动态的、隐性的、过程数据。这样的人机共生的数据,将为大模型提供下一波发展的关键“燃料”,会使得模型越来越聪明,满足人类各种细腻入微的需求。利用好人机共生的数据,需要产品精心的设计,也将是AGI时代产品的核心竞争力。
基于以上分析,我认为大模型将驱动互联网从 “信息网络”在未来演变为 “行动网络”。在传统的“信息网络”中,人类从互联网获取信息,然后人类自己来规划和行动,最后得到结果。而在未来的“行动网络”中,人类表达需求,智能体来规划和行动,包括协作、调用工具等,最后给人类返回结果。这种变化是巨大的。
在这种新的范式下,产品形态会有怎样的变化呢?我冒昧地提出一些前瞻性的想法:
1. 搜索:智能体当然需要搜索来不断补充自己的知识库。
2. 广告:智能体需要广告吗?广告也是喂养大模型的数据的一种。
3. 电商:如何让智能体帮我们买到全网性价比最好的产品?
4. 社交:智能体之间需要构建社交网络吗?如果社交网络主要是为了信息交换,那么智能体需要;但如果社交是为了分泌多巴胺,智能体可能不需要,因为硅基智能没有这个需求。
5. 资讯:智能体需要每天阅读新闻来更新自己的数据吗?从数据更新的角度看是需要的,但交互方式可能不同于现在的GUI。
6. 教育:除了现有的预训练和人类反馈强化学习外,未来是否会有专门面向智能体的课程?我给它讲一个小时的课程,边讲边演示,讲完之后它就能干这个活了。
7. 通讯:智能体之间需要发邮件或微信吗?如果是为了信息交换,那么是需要的。
这些看似是人类的需求,但反过来想,它们是否也是训练人类这个“模型”的数据需求?大模型也需要不断的数据供养才能变得越来越智能。
从这个意义上来讲,未来的产品经理可能需要从面向人类的需求设计产品,转变为面向智能体的需求来设计产品。我们的用户可能不再只是人类,而是智能体,或者是人类加智能体的组合:
今天听起来,我的很多内容可能有些脑洞大开。但我想提醒大家,不要用今天的经验来看明天。据老虎基金的统计,互联网先驱Netscape诞生后的两年内,成立的公司市值在今天占全球互联网市值不到1%。我坚信:未来的产品会以非常不同于今天的范式,颠覆人类生活的方方面面。
【演讲PPT】如果有朋友希望获取本次演讲的PPT,可以关注本公众号,回复PMSummit2024关键字,即可在回复消息中看到这个演讲稿下载。
【活动分享】全球机器学习技术大会(ML-Summit)将于2024年11月14-15日在北京金茂威斯汀大饭店举办。聚焦大模型领域的工程实践,包括海内外50+讲师,12大主题。详情参考官网:http://ml-summit.org/ (或点击原文链接)