深度|一年之后: AI 大模型航海我们身在何处?将驶向何方?

科技   2024-11-04 08:59   浙江  

Aaron 曾先后就职于国际一线投行及科技美元基金,长期专注于前沿领域的投资。近年覆盖领域包括但不限于Al及垂直领域应用、机器人、XR及自动化等,目前是新生代前沿科技基金Capital O管理合伙人。

自年初以来,Aaron 调研了近250个项目,深度探访了108个创业团队,发现其中九成以上为华人早期创业项目,尤以AI大模型相关的项目为主,占比达84%,涵盖了从中国本土到海外华人及出海团队的多重视角。

在91个大模型相关项目中,应用方向和硬件、具身智能、XR、基础设施等多领域齐头并进,尤其是在2C泛娱乐和2B效率提升应用上涌现出新锐创意。

从宏观层面看,AI大模型的发展路径可分为基座大模型、中间层基础设施和应用层三大模块。底层模型奠基,中间层优化生态,应用层实现价值闭环。与半导体产业相似,大模型赛道高投入、高风险、资源高度集中。头部公司不断攀升门槛,技术前沿性和资金需求超越了传统风险资本的承受力,这也让大模型的未来充满挑战和机遇。

这一年看了哪些项目
从年初开始截止9月中旬,共覆盖近250个项目,见了108个团队,基本都是华人早期创业项目,其中AI大模型相关91个,占84%。
从地区看,中国本土项目55个,占51%;海外华人及国内团队出海项目53个,占49%。在91个大模型相关项目中, AI应用53个,其中2C泛娱乐方向38个,2B效率提升方向15个;AI硬件项目8个, 具身智能14个,XR相关5个,AI基础设施7个,其他AI相关项目4个(包括AI驱动材料发现、自动驾驶等)。
宏观上看,AI大模型赛道可以分为三个层次,即底层基座大模型、中间层(基础设施)及应用层。逐层递进,最终都为应用层服务:底层大模型为应用层提供基础模型能力,中间层为开发者提供更好的工具和开发生态以便调用和发挥底层大模型能力。底层模型能力决定应用层上限。
底层大模型非常类似半导体产业,在如今第一梯队模型训练逼近10万卡集群的要求下,旗舰模型的训练成本接近十亿美金且有失败风险,类似半导体流片。在极高的资源禀赋门槛下,底层大模型研发公司迅速收敛,新玩家窗口关闭,现有玩家进入淘汰模式。在OpenAI o1系列模型发布后,基于强化学习的推理上限被打开,预期未来2-3年基座模型研发将持续需要重资源投入,头部公司资金需求实际已超出传统风险基金承受范围,需要依靠大型科技公司及主权基金支持。
中间层为大模型生态的开发者提供工具,主要涉及模型训练及推理优化、流程编排、模型API调用等。中间层主要基于开源生态,服务于底层基座大模型和应用层开发者。
应用层被寄予厚望,从前几个科技范式中不难得出结论:应用层将最终决定整个AI大模型生态的商业价值。前两层的投入都是为了应用层的开花结果打下基础,但凡事都有一个渐进的过程。借用Altimeter Capital合伙人Apoorv的两张图(为后文表述方便以下简称“Altimeter周期“)。对比云时代三层之间商业价值的“V”型分布,目前AI大模型范式还处于早期“打地基”阶段,表现为芯片半导体层因为算力稀缺性捕获了最大价值,整体生态成“A”型。长期中,随着底层大模型和中间层基础设施逐渐完善,并商品化(commoditized),应用层开发门槛将会逐渐降低,成本指数级下降,与此同时应用效果随之提升,渐进解锁商业价值,生态商业价值最终会完成从“A”型向“V”型转变。在三层中,应用层是最适合创业公司以小博大的方向。

基于基金的策略,我们在项目筛选上倾向于应用层的创业项目。今年我们一共投资了3个项目,其中1个项目为大模型相关(围绕AI内容生成的C端兴趣社区),另有两个AI相关项目正在深入洽谈。

目前AI应用方向的观察

在去年的文章「旧文重刊」麒麟 Chilling EP.1 | “永远”有多远:生成式AI新航海时代指南中,我表达了观点:幻觉(hallucinations)短期内无法根治;应用需通过场景选择找到更合适、胜率更高的方向:在数据结构化的专业服务领域做有限度的泛化(2B professional services)+ 在容错率高的场景做泛娱乐智能(2C social/entertainment)是两个有前景的方向。
这个观点在今天看来依然成立,“更有用”和 “更有趣”是AI大模型技术落地的两个主要思路。虽然方向是清晰的,但道路险阻且长,回顾过去一年,大模型依然没有“飞入寻常百姓家”,具体表现为难以真正破圈从而形成网络效应。
造成这一现状的原因,我有以下几点观察:
1)大模型技术尚不能“单打独斗”,应用层繁荣可能还要等1-2年
虽然头部旗舰模型已经展示出不错的能力,但对多数应用来说底层模型能力还没有跨过支撑大体量用户所需要的阈值。具体表现为,幻觉问题依然存在、长程推理能力缺失、响应时间长、推理成本高等,开发团队需要解决大量工程问题来提升效果。
现阶段AI大模型技术大致还处于“赋能(enable)”阶段,是配角。在已经有用户有工作流的场景中可以作为一个可选功能锦上添花,但尚未达到原生AI应用场景进行“颠覆(disrupt)”的阶段。
在o1系列模型发布之后,未来1-2代旗舰模型有望在长程推理能力上得到明显提升,但从目前开发进度来看,依然需要时间来进行工程化落地和成本优化。
在基座模型能力完成向下一阶段跃迁之前,应用层目前从规模上来看更类似现金流生意,很难真正形成网络效应,目前看来并没有证明可以突破规模瓶颈,大部分还没有达到进行资本化规模放大的阶段。
2)但在部分种子场景已经验证需求
我认为AI大模型技术最深远的意义可能在于:生产力和创造力的平权。AI生成技术能让更多人实现想做但之前没有能力做的事情,呈现想创造但之前没有能力创造的场景,满足想解决但之前没有能力解决的需求。
创造力平权:多模态AI内容生成让更多有想法但不会创造的人成为了内容创作者。Civitai顶流AI图像创作者Dynamic Wang拥有出众的审美和艺术想象,但此前并不会作画,AI制图工具的出现犹如“马良的神笔”让他的艺术造诣跃然纸上。类似的,在小说撰写、视频制作、音乐创作等各个内容领域,都出现了逐渐成熟的AI内容生成工具,让更多之前停留在想法阶段的用户真正转变为内容创作者,让更多普通人的创造力具象为作品的呈现。
生产力平权:在旧范式中,产品和服务设计的角度是满足大众需求的公约数。但以Cursor + Claude Sonnet 3.5为代表的自然语言低门槛编程工具的出现,让更多不具备编程能力的普通人可以根据自身的长尾需求自制解决方案。另一方面,AI大模型在长文本理解及检索增强方面的优势,也在一些领域帮助小团队具备了匹配机构化的研究能力。
此外,虽然大模型目前并没有表现出自我意识,但以文字、音频为主的对话内容输出形式,自带拟人属性,人机点对点交互让AI大模型技术天生适合为用户提供情绪价值,这一点已经在各类C端AI陪伴产品中得到验证。
3)新交互方式出现前依然是移动互联网逻辑
容易被忽视的是:虽然AI应用底层科技范式发生了变化,但最终产品分发的渠道目前并没有发生变化,还是在PC web端和手机移动端。
在新AI硬件或新OS交互方式出现之前,AI应用的交互容器都不会发生变化,特别是面向大众的应用产品,用户并不会深究产品背后技术实现的路径。AI大模型技术只是众多实现用户体验的工具箱中的一种,最终产品的好坏由用户体验决定。
这就需要团队在使用前沿技术开发时兼顾用户视角,在移动互联网时代已经被验证的方法论和经营管理方式依然适用,特别是在产品立项、北极星指标确立、用户增长方案制定、社群运营方式等方面。
从终端来看,现阶段AI应用在PC web端场景丰富多样 (某种程度上超过移动端),这是由于以下几个阶段性特点决定的:
  • 目前AI应用大多需要通过用户高密度文本输入实现交互 (chatbot类产品)
  • 围绕B端生产力提升场景,知识工作者大多以web端为工作台
  • 以Monica.im为代表的浏览器插件快速迭代,很好的满足了用户需求
  • 在AI内容生成领域,前端封装完成度低,依然需要使用ComfyUI等复杂工作流编排工具。
但从直觉上,我认为PC web端产品对用户的使用门槛较高,大概率只是技术演进过程中的中间产品形态,用户基数更大、场景覆盖更高、使用门槛更低的移动端才是最终商业价值更大的终端。
4)更有趣 vs. 更有用
OpenAI对大模型智能程度进行了5个层次的划分,o1系列模型发布后SOTA模型的能力正处于Level 1和2之间,换句话说底层基座模型的智能化还处在发展的早期阶段。这直接影响了应用端实际落地的效果,并对2C泛娱乐应用和2B专业服务效率提升方向的应用都有一定影响,但对后者的影响更加显著。
在2B专业服务效率提升方向,虽然场景本身数据结构化较高对模型相对友好,但AI应用需要挑战的现有解决方案基线本身不低,在AI应用瞄准的很多场景中上一代SaaS类产品已经提供了成熟的解决方案,AI应用需要比这些方案做的更好才能在用户侧具备竞争力。
此外,目前AI应用需要一定时间的用户磨合期,通过积累用户行为数据,逐渐进入数据飞轮。但在B端场景中,用户对产品的容忍度相对较低,如果在试用阶段出现“下头时刻”,留存将受到极大影响。基于上述两点,2B专业服务效率提升场景对AI应用用户体验和产品完成度要求相对较高,目前大模型能力在多步长程推理能力的缺失,直接限制了这个方向应用产品的效果,开发团队只能通过大量工程手段进行解决。AI应用现阶段并没有显著好用,效果不佳。
同时,根据我的观察,多数华人团队在2B专业服务SaaS类产品方向并没有明显的优势(会在下一小节具体展开)。
相较而言,2C泛娱乐场景主要依赖模型对多模态内容的生成能力,在这些领域因为模型参数相对可控、训练语料丰富且像素化内容连续性高,因此使用“next token prediction”方式训练实际效果优秀,在一些模态已接近人类创作水平。在OpenAI的划分中并没有提及多模态内容生成,但在Level 1的智能表现下,音频、图片等领域都已经出现了完成度较高质量可用的模型产品和工具。同时,在这些领域,AI为用户提供的是以前不能但现在可以的体验,因此有较高的用户容忍度。
具体到内容的各个模态,低模态生成质量已经相对成熟且成本持续下降,但视频等高模态场景仍需要更多时间。在豆包展示多模态内容生成模型组合后,对创业公司核心结论是:纯比拼内容生成质量的工具型定位产品,在海量数据管线面前“奇技淫巧犹如蚍蜉撼树”。但大厂也不是无懈可击,目前的痛点是内容生成速度和成本,如果能技术路线能像viggle一样优化这两个方面并找到一个对内容生成质量容忍度高的场景,依然有差异化竞争的机会。兴趣社区等形态相对更适合创业公司探索,核心竞争力是用token换取平台积累的内容资产。
a) 文字
  • chatbot类产品已经非常成熟
  • 非常“卷”,竞争激烈
  • 文字输入对用户门槛极高
b) 音频
  • TTS技术近期在低延迟、可打断、感情丰富度、低语料克隆等方面进步明显
  • TTS技术与对话类产品结合,可大幅降低使用门槛,同时丰富交互体验
  • 但TTS技术上限较低,开源与闭源产品差距不明显,需要思考长期竞争和商业化路径
  • Suno及字节Seed-Music等在音乐创作场景也进步明显,已经开始在生产端部分使用
c) 图片
  • Midjourney等头部公司的生图效果已经非常优秀,Flux生态更是将效果提升到新的台阶,且成本持续下降
  • 各类编辑工具“此起彼伏”,但多为“脉冲式流量”;本质原因是产品仍停留在“滤镜”定位,需要采用Remini式多效果多滤镜模式组合才能保持长期用户留存
  • 社交价值和玩法需要探索;纯图片社区天然社交性有限(除定位人和生活相关产品,如Instagram和小红书),目前多数产品还是工具定位,如何围绕图片生成打造社区,并实现长期用户留存是目前的较大挑战
d) 视频
  • 视频是沉浸感最高,感官刺激最强的内容模态,且用户门槛低,长期中商业价值最大
  • 现阶段视频内容生成仍处于早期阶段,具体表现为质量差、时间短、成本高
  • 现有架构不支持用户对生成视频内容局部编辑,纯“抽卡”模式将限制用户体验
  • 短期中“talent“比不上”scale up”, 当字节、快手、YouTube海量视频数据灌入后,创业公司将会被降维打击
  • 口播类场景已经相对成熟,可以通过数字人的方式实现一部分落地场景
在2C泛娱乐应用场景中,华人团队包括出海团队优势明显,也是潜力更大,更有机会出现平台型、规模型的公司的方向。尤其是在社交领域,技术革新降低内容生产成本、扩张内容库,交互创新提升体验,从而提供新的内容消费和交互体验,这是个β机会。而α机会可能会出现在一些垂类细分社区和群体,这种场景早期容易被大众忽视,但往往能表现出很好的用户交互数据。我们今年截止目前唯一一笔AI应用投资也是聚焦这个方向。
除了围绕多模态内容生成的娱乐社交产品之外,AI教育也是2C场景中一大热门方向。覆盖年龄段从低龄段幼儿到高龄段在校生,有纯软件形式也有软硬件结合的方式。
本质上这些产品针对的并不是新场景和新需求,在幼儿启蒙端,传统的玩具、故事机、画本起到了类似的作用;在校生端,基于上一波互联网技术的搜题和线上教育产品依然拥有大量用户。大模型技术在这些场景中能进一步起到赋能“enable”作用,带来更好的用户体验。
相比之下,从年龄段上我更看好低龄段幼儿启蒙,因为这个场景更能发挥AI内容生成天马星空的创造力,且交互体验相对于现有解决方案(故事机、画本)优势更加明显。解题类应用,一方面在场景上并不直观(有许多线下学习方式替代),另一方面o1路径的大模型本身在这些场景将大幅提升智能,应用公司将面对竞争。最后软硬件结合优于纯软件模式,有硬件产品将筛选掉一大部分竞争对手,软硬件捆绑销售也能提供一定现金流,纯软件模式壁垒更低将面对更激烈竞争。
另外,在AI教育方向团队竞争异常激烈,有Gauth这样大厂孵化的产品,也有在线教育创业老炮参与,对新团队来说挑战明显。
5)中国本土团队 vs. 海外华人团队
顺着上面的分析,根据我的体感,国内背景(包括出海)团队在2C泛娱乐应用场景中拥有非常明显的优势。最直接的例子是character.ai开创了虚拟语聊情感陪伴的先河,但在产品打磨、社区运营和商业化探索上完全被后发的一众华人创业团队碾压。
华人团队在这个方向的优势主要体现在:
  • 亚文化优势:对ACG文化天然有更深理解;基于ACG内容二创、同人等形式目前是最能体现AI生成技术 “从无到有”优势的落地场景
  • 玩法天马行空:移动互联网时代积累的大量游戏和社交玩法依然适用
  • 雕花能力强大:执行力强大,迭代快,AB test数据驱动
  • 投放手法娴熟:SEO和growth hack等套路成熟,且现阶段获客成本
相比之下,华人团队在2B专业服务效率提升方向的优势并不明显。大部分团队能做到的是:发现一个具体的问题和疼点,并通过技术的手段给出解决方案。但缺乏的是
  • 产品审美;包括全局设计审美品味以及UIUX设计
  • SaaS销售;2B场景往往不能完全依靠SEO,还需要依赖基于人际关系的销售
  • 而这两项对SaaS类产品长期发展至关重要,且都是海外创业团队的传统强项。
除此之外,如上文分析,短期内应用依然会遵从移动互联网逻辑,中国团队在移动互联网时期积累的大量实战经验在很大程度上可以复用,且中国开发者资源和人才密度充沛,在想法上也非常活跃,再加上信息高透明度,在应用端并没有观察到中国和海外团队之间的差距,在某些细分场景中甚至有优势。很多出海和海外团队也依然选择把部分开发团队放在国内。
海外本土的华人团队在想法上更有多样性,同时拥有更充裕的资金池支持,针对极其细分的场景和需求也能顺利起步,但要在更大的基数中长期脱颖而出也面临一定挑战。
6)团队小型化年轻化 新组织架构浮现
生产力和创造力平权在开发端同样催生了小型化AI应用团队。5人以下的开发团队成为主流:Devv.ai依靠3人团队在过去一年完成两次产品迭代,打造了用户口碑很好的编程搜索工具,并积累了一定规模的用户;甚至出现了王登科、赵纯想、李继刚为代表的独立开发者,几乎以一己之力打造了颇具传播力的爆款作品。
同时,AI应用早期用户对付费接受程度较高,一旦产品在一定范围内获得认可,便容易产生自传播,在获客成本很低的情况下,即使用户规模不大,也能为小团队提供健康的现金流。
但 “众人拾柴火焰高”,不同类型的开发者社区开始出现,有代表性的包括Founder Park, ComfyUI, HuggingFace, Dify, Way2AGI等,以及各类各具特色的社区组织,包括针对05后开发者的Spark Lab,针对上海开发者的Demo inn Shanghai等,也有赛博禅心,Z Potentials,特工宇宙这样的新媒体(关于社区生态现状后续将用单独一期进行分享)等等。同时,奇绩创坛等早期投资机构也为年轻创业者社区建设提供了贡献。这些社区内良性的沟通和互动激发了不少新奇的点子和创意。
但在大模型基础设施依然处于早期阶段,且AI应用大盘用户总量有限的阶段大背景下,我虽然认为小团队的机会终将来到,但还需要耐心再等一等,目前并没有到“车库创业”的时间点(在Altimeter周期中后期才会出现)。想要在公司层面做大做强,团队也需要更综合的补充和帮助。
在这样的历史阶段,需要新的组织架构来帮助小型化年轻化团队的成长和突破。Monica.im的肖弘和硅基流动的袁进辉做出了很好的表率,前者通过收购和招聘的方式,聚合崭露头角的独立开发者提供一个相对更大的平台整合各类新鲜有趣实用的“features”,而后者依托自身MaaS平台的算力资源为应用开发小团队提供算力支持。
7)资本供给出现真空
大模型相关创业群体大致可划分为三类:
  • 头部明星类,拥有成功创业履历,能够形成资本和人才的号召力;
  • 业内共识类,现阶段产品数据初具规模,甚至可以做到细分头部,用户口碑好;
  • 高潜类,有创新的有意思的想法和产品,但尚未规模性验证
总的看来,现阶段的市场环境对创业团队(特别是国内团队)的要求是很高的,需要有全面的综合实力,不仅是技术全栈能力,还要用户增长和运营、品牌营销、融资等全栈能力。
当下,大模型行业发展还处于“Altimeter周期A型向V型转变”的早期阶段,价值主要集中在底层基座模型和中间层基础设施方向,投资机构在这些方向通常更相信头部创业者。另外,国内市场风险资金体量明显收缩,且向头部机构集中。应用层公司目前成功概率低,同时对头部基金来说体量也偏小,虽然有早期机构提供启动资金,但公司进入$30-50m估值区间因为资本供给的真空依然颇具难度。其实在美国市场也有类似的问题,早期创业团队YC毕业之后的1-2年也会面临持续融资的压力。本质原因是这个阶段的产品用户数据并不足以支撑估值。
几个常见的“buzzword”区及「避雷指南」
相信经常关注大模型领域的朋友一定对一些流行的说法和理论“耳熟能详”,有些时候出于便于传播的目的,部分概念常常被曲解成buzzword。另一方面,在过去一年和创业团队深度沟通中,也共同经历了不少“坑”。在这个章节中,我总结了一些「避雷指南」,大家有则改之,无则加勉。
1)PMF
这一定是行业内最被过度讨论的一个词。除非是纯研究性机构(Open时期的OpenAI和Deepmind等),商业化是一家创业公司最基本的使命和职责。产品的落地和商业化不一定要在第一天就实现,但如果一个团队长期连产品(“Product”)和市场(“Market”)都不能找到(“Fit”),那我认为团队并没有做好创业的准备,可能只是一次勇敢的“兴趣尝试”。
“强扭的瓜不甜”,长时间挠破了脑袋拼命寻找PMF,这种状态本身可能就有问题。借用一个比喻,PMF就像爱情,不用刻意寻找,当她出现的时候,自然会有感知。
当前行业普遍苦于找不到好的落地场景,究其原因可能是1) 大模型整体技术能力尚不完善,推理成本还不够低;2) 团队对场景用户需求发掘不够深入。
2)AI原生应用(AI native)
AI 原生应用是另一个被高频提及的词汇。从开发者的角度来说并没有错,AI应用需要团队基于对新技术的理解,在技术边界内从原生的角度进行架构和交互设计。
但如前文所述,一方面目前大模型技术架构本身存在明显的局限,更多的是在已有场景中做锦上添花的“赋能enable“,在这个意义上AI大模型技术还需要与其他传统技术配合使用,尚未达到作为主角独立支撑起一个用户场景的“disrupt”阶段。
另一方面, AI应用基本都在PC web端和手机移动端分发和使用,在用户视角并不存在所谓“AI原生”的概念。甚至目前的AI硬件也只是在做好原有基础功能之上,尝试用AI大模型技术带来体验提升(关于AI硬件的具体分析将用单独一期分享)。
硬是困在AI原生的思维中,反而可能会被束缚,从而导致进入下一小节讨论的另一个误区。
3)“技术”和“数据”驱动
接触过的很多应用团队普遍处于一种相对「被动」的状态,不是被“技术”牵着走,就是被“数据”牵着走。前者表现为技术能做什么就去找什么场景(不少文生图方向团队),后者表现为什么形态数据反馈好就去做什么(不少擦边陪聊方向团队)。跟着技术和用户走固然是正确的思路,但不少团队“只见树木,不见森林”,本质上并没有想清楚自己在做什么产品,满足用户的什么需求。纯数据驱动的前提是有足够的试错机会,字节不成功的尝试一定比成功的多。
创业团队可以尝试提问自己:用一个词概括产品究竟是什么。第一性思考在行业早期尤其重要,站在投资机构视角我更青睐对产品本质有更深刻思考的团队,这将直接决定公司是否能找准北极星指标,从而制定长期正确的策略。
现阶段可以在实际落地的速度上有更高的宽容度,但选择永远比努力重要。同样是围绕AI内容生成的C端应用,工具、社区、社交、游戏这几个方向在目前在产品形态上多少有些相似,但长期中运营和管理方式却截然不同,对产品定位上有前瞻性的深刻思考,在这点上「慢就是快」。认知指导组织架构,只有回答了产品本质的问题,才能真正掌握主动。
4)忽视审美的决定性意义
「颜值即正义」是亘古不变的真理,在AI应用上同样适用。对需要一定学习成本的新产品新事物,用户“onboarding”的过程就至关重要,而在这个过程中审美和UIUX设计往往直接决定了用户是否有足够的耐心继续与产品磨合。
最极端的例子:部分团队为了验证方向,在开发产品之前,就通过先将想法做成“landing page”的形式测试需求。好的视觉呈现,通常会在还没有产品的阶段就吸引一定用户的关注(OpenAI的官网设计,让人心旷神怡)。在某种意义上,众筹项目也是如此,好的宣传片和概念展示,即使是期货,也能给用户种草,甚至转化成预付。
产品长的好看不是成功的充分必要条件,但忽视审美的重要意义可能会让用户在真正了解产品功能亮点前便流失。相比于AI模型技术开发的硬核,UIUX设计在纯技术角度上并没有那么前沿,在激烈的竞争环境下,团队不应该丢这些“easy points”。
产品设计师在一个团队的话语权往往决定了产品的总体用户体验。有优秀审美同时又对技术有理解的设计师在现阶段应用团队的核心且稀缺人才。在我看来,Monica的前设计师Suki在某种意思上定义了这款产品的灵魂。
5)“ARR”
ARR("Annual Recurring Revenue”)是订阅类产品是常用的估值衡量标准,不少数据增长很快的AI应用也喜欢关注这个指标。但站在投资的角度,现阶段我们需要警惕伪“ARR”的陷阱。
在包括“rule of 40”等经典的订阅模式估值体系中,除了订阅收入的绝对增长之外,毛利率、净利率、用户流失、复购和增购等各项指标也需要进行综合的考虑和分析。在讨论ARR的时候,不讨论“recurring”只讨论“revenue”在行业和产品早期阶段容易高估短期增长势头,而对长期价值做出判断偏差,特别是再用“annual”进行12倍放大之后。
AI应用相对新兴,特别是在PC web端存在阶段性获客成本洼地,在细分场景完成产品形态和功能验证的团队可以借助SEO等投放工具,迅速放大。但在长期中,区分“脉冲式”现金流业务和高质量健康收入的关键就是留存指标。
不讨论留存的ARR都是伪命题。事实上,cohort留存指标是现阶段我最关注的指标,如果能出现「微笑曲线」的翘尾就是PMF最强有力的证明 。Sequoia Capital在这篇文章(articles.sequoiacap.com/retention)中对留存指标有系统性的解读,不再赘述。
6)分布式办公
这点比较直接就不过多赘述,可以参考裴宇在Nothing内部的全员信。目前AI应用「僧多粥少」,在高关注度下可能并不存在蓝海机会。有明确的想法并获得用户反馈信号确认后,执行力就是最大的竞争壁垒。
Monica.im就在这方面做的非常极致:市场上新出现的产品、features甚至是不成熟的想法一旦进入监测雷达,即使是凌晨,团队也会尽快将产品卷上线。这种「卷到极致」的执行效率是分布式办公很难达到的,也是中国团队的优势。
一些反直觉思考
分享几个我对AI应用层的思考,希望不会变成爹味的说教
1)多做一些和AI不相关的事
我不认为用户应该直接和模型进行交互,AI应用实质上起到了两层桥梁的作用,一端连接模型层,另一端连接用户层。在现阶段模型层能力不完美且在不断提升的时点,应用团队应着重建立足够灵活的技术架构以便无缝嫁接SOTA模型。在目前模型的基础上死怼工程量,一方面效果不一定好,另一方面竞争对手在模型迭代后可能有后发优势。
相比之下,趁着技术爬坡期,更经济的方式是在连接用户端,做好用户的onboarding,具体包括目标人群的圈定,种子用户获取,交互和玩法的设计,用户反馈调研等等。从某种意义上来说,这些工作AI成分并不高,但“frontload”这些工作,成果和经验是在长期中可以积累沉淀的。在小范围跑通用户连接的桥梁,等待模型层突破,不失为小团队应该考虑的策略。
2)少关注SOTA 多和用户泡在一起
同样,作为应用层的开发者关注模型层的前沿发展固然重要,对技术边界的理解对产品定义有指导意义。但某种程度上,也不应该沉迷SOTA,最终应用公司大多会通过调用API的模式接入底层模型能力。哪个API好用市场会快速形成共识,是一个较为同质化的市场,答案通常是显而易见的。
与用户多交流沟通,形成深刻且具有代表性的洞察反而更能在现阶段形成差异化。很多团队确实在做用户调研,但不是每一个团队都在用系统性科学性的方法做用户调研。访谈用户取样方法是否科学,样本量是否足够,取样用户是否足够具有代表性,问题的设计是否隐藏有引导性这些都是需要花时间认真思考的问题。
早期建立正确的归因系统,会起到事半功倍的效果。
3)宁要小而美 不要大而全
过去20年科技狂飙突进,现代人在2B生产力和2C泛娱乐的大部分需求都被很好的满足。AI应用作为挑战者,在用户端需要面对同场景同类产品的比较。在B端生产力方向一个单点任务高鲁棒性的完成带来的用户体验大概率好于覆盖多功能但出错概率高的产品。在C端娱乐方向,平台类产品本身网络效应强,迁移成本高。作为挑战者特别是小团队,从把一类问题解决好把垂类人群的需求服务好出发,是更加务实的策略。
就像大卫战胜歌利亚靠的是单点突破,另一个角度来说在不确定性还相对较高的今天,小而美的策略也能支撑团队长期留在牌桌上。
4)猥琐发育 闷声发财 
虽然应用的繁荣可能还需要一段时间,但现阶段下场的创业团队也有很大机会成为应用层最后的赢家。通过实战积累经验,在实践中摸索技术的边界,打磨组织和团队,真诚对待用户,先多做一些和AI无关的工作把与用户交互的「最后一公里」做好,等待底层模型能力提升、推理成本下降时迅速抓住市场机会,「广积粮,缓称王」,留在牌桌上才能保留赢的可能。
我们在哪儿,会到哪里去
在基础模型侧,OpenAI o1系列模型为行业指明了智能提升的又一块未开采的富矿,即结合强化学习的模型训练。从目前的各种信息看,即使对OpenAI来说,具体的工程落地也需要调动大量资源和时间,传导到应用层可方便的直接调用,可能需要等到GPT-5的落地,但GPT-5相对于GPT-4系列模型将有明显提升。长远来看,我对基座模型的上限相对乐观,依然有很多技术路线没有被尝试,只是因为大模型训练“流片”的成本太高,无法都尝试一遍,在这个角度上来看行业缺乏的是信心和号召力。
在大模型侧舆论经常讨论中美之间的差距,其实更准确的说应该是OpenAI与其他人的差距。在旗舰模型的比拼中,全球范围内也只剩Google, Anthropic, xAI和Meta等少数玩家有实力持续竞争(Mistral可能会开始掉队)。差别是国内应用开发团队不能直接调用闭源模型API。
国内底层基座模型六小龙在资源有限且后续融资愈发艰难的情况下,需要现实地考虑试错成本。未来6个月国内的主题可能是阿里和字节为首的大厂迅速迎头赶上。算力依然是制约国内基座模型的核心因素,Meta和xAI的开源模型将决定国内底层基座模型的下限。
在中间层因为OpenAI为了防止CoT数据被扒取用于模型训练,对这部分过程进行了隐藏。在开源生态跟进之前,中间层并没有太多实际可以做的工作。
应用层的产品落地将随着底层基座模型的提升渐进式解锁,最后应用层能实现的场景取决于底层大模型的能力上限。但即使大模型能力未能完成下一次跃迁,文字、音频和图片等模态的内容生成在目前发展情况下也将取得不错的成果,支撑一批应用场景落地。
总的来看,未来6个月行业可能将进入暂时性的技术平稳爬坡期,在应用层可能存在两类机会: 
  • 已经下场在小范围内验证场景,并取得一定用户规模和健康的交互数据,但受限于模型生成质量和推理成本,尚未规模性放大;
  • 有思路和用户洞察但超出目前模型能力覆盖范围,因此还没有开始做。一旦,模型取得突破,这两类团队都将直接受益
最后非常感谢你耐心地读到这里。如果这篇文章能让你记住一句话,我希望是:
Web端产品和订阅制都是过渡形态,未来3-5年AI硬件和交互也不会发生颠覆式变化,AI应用的「圣杯」是移动端可以插广告的产品形态。
✦ 精选内容 ✦
a16z 合伙人最新洞察:继续推动下一代模型,需要每个阶段增加 10 倍计算资源、10 倍电力和 10 倍数据
新出炉的 200+页 AI 现状报告都说了什么?AI First 初创公司营收增速比传统 SaaS 公司要快两倍!
5 个硅谷最新 AI 共识:未来将是多模型共存局面,单一 AI 模型不再占据主导地位,杀手级应用已悄然出现......
VC 今年以来对 AI 初创公司投资达 641 亿美元,接近 2021 年峰值,但全球 AI 年收入总额也才数百亿美元






有新Newin
无限向新力。
 最新文章