季度AI观察1Q24：贪吃蛇与俄罗斯方块

文摘科技 2024-03-04 11:23 上海

关注共识粉碎机，获取历史讨论会纪要

共识粉碎机从本季度开始推出新的季度文章系列《季度AI观察》，期望通过与行业内最前沿的一线创始人/从业者们交流了解每个阶段大家的所思所想。

本次作为观察者参与了Whatif组织的AI Panel。WhatIf季度研究线下会，是一个投研组织，季度会主要参与者为AI公司创始人、工程师、科学家和行业组织等。本期通过为期3小时的脑暴交流，感受到了AI行业第一年的变化。

1 贪吃蛇与俄罗斯方块

在《大模型未来三年的十个假设》中，我们提到了一个有趣的现象“为什么LLM第一年没有颠覆大玩家？”。

大模型未来三年的十个假设

2024-01-22

成熟的大公司在LLM元年，没有一家被弯道超车。

听完这次Panel，如果用一句话总结：“AI在现在更像Consolidation，而不是Disruption。”

Panel中提出了一个有意思的观点，LLM时代的大公司就像贪吃蛇：

全世界最大的公司们就像贪吃蛇，一直在尝试，尝试在哪个领域可以应用LLM。
在思考怎么在自己的生态里，用LLM去聚拢更多的人才：可能是公有云代表的软件生态，可能是内容代表的创意生态，也可能是端侧代表的供应链生态。
每家公司都在努力认领一个超级入口作为LLM时代的船票。
他们是LLM这场马拉松开始时候的种子选手，也大概率可能是决赛圈选手。

贪吃蛇们也正像我们熟知的游戏里一样，非常有规划的吸纳所有力量：

人才密度高的公司有引力，微软就投资OpenAI，AWS与GCP也打响了一次Anthropic争夺战，而在先前Google是上一家明星企业DeepMind的收购方。
围绕AI的收购争夺战在2023年也越来越激烈，MoSaicML、Neeva、G2K、OmniML等一批最优秀的LLM企业都成为了被争抢的对象。
在过去的技术浪潮里，大公司们往往先尝试自有团队来试，但在LLM时代所有人都把时间和资本视为最宝贵的资源，收购甚至比自己来试走的更前。

而相比贪吃蛇们，剩下的LLM创业公司则更像再玩一场俄罗斯方块游戏：

要去找巨头们觉得很重要，但是现在还不能做的领域。
要么是巨头不想做的领域，要么是巨头因为架构和方向不能做的领域。
不断地在夹缝中寻找生存点和创新创业的方向。就像是寻找单点突破的方向，找到能嵌合进去的突破口。

在任何一个时代创业公司都像俄罗斯方块，但AI时代的难度看起来更大：

PC 软件时代，互联网时代，移动互联网时代，都是介质不同，所有业务天然有重塑需求，比如社交可以重做一遍，做移动原生的微信。
但 AI 本质是工具加强，不是介质创新，很多业务未必需要重做一遍。因此 AI 时代的俄罗斯方块难度更大。

2 贪吃蛇的存钱罐与触手

这一期的贪吃蛇们非常强劲，有很强的循环造血能力。

就像我们在讨论LLM时代最大的贪吃蛇微软时：

微软有着全世界最全的SaaS生态，是几乎所有软件公司的对手，这就像他的一对对触手，最有机会赋予先期极大投入的大模型商业价值。
微软躺在几乎所有客户公司的供应商列表里，省去了大量POC流程时间，产品出来就能很快用上。
微软总是能激发1+1>2的潜力。就像我们在讨论Copilot的时候，往往更多看到的Copilot作为Seat售卖提高生产力。却很容易忽略Copilot本身结合企业的Domain Data后还可以成为一个知识库产品，按照Data Consumption模式商业化可能比Copilot本身更具潜力。

Panel有个有意思的话题：“为什么Azure OpenAI API卖得比OpenAI API还好”

Enterprise客户非常看重安全，微软的安全做得最好。
微软已经是供应商了，不需要再走流程了，每家客户都想着越快越好。
初创AI客服公司很难卖进去几千人的CallCenter，但被CallCenter大公司收购后很快就进入了很大的CallCenter项目。
Stability.ai正在寻求收购，收购后可能才更容易在竞争激烈的文生图行业找到商业化机会。

“AI超级个体”、“AI小公司赚大钱”是最近常见的叙事，但Pannel上有一个惊讶的观点LLM可能会让大公司们打破壁垒变得更加庞大：

过去的大公司大到一定程度，边际收益就会越来越低。
每一次生产工具的进步，都会使得组织变得越来越大，交通、电话、互联网、移动互联网、云的出现都使得组织突破时间空间变得更大。
AI也会使得组织有无限膨胀能力，大企业的资本投入效率变得更高，也会让边际收益的天花板再次提高。

3 贪吃蛇也没有秘密

在大模型时代最大的贪吃蛇是OpenAI+微软的组合。

OpenAI是大模型时代的登月者，在OpenAI登月的过程中，其中的Knowhow和技术思想也在不断向外扩散。

GPT4在硅谷已经几乎没有秘密了：

算法层面上没有问题了，圈子内对各家有什么技术，以及重点研究方向都非常了解。
差别主要在数据和工程上，这里面可能有很多大大小小的卡点，可能中间会碰壁，但方向确定的情况下解决都是时间问题。
都已经摸索出门道，大概估算得出到达GPT4需要多少算力、人力和工程量。
硅谷层面没有秘密的时间点肯定比中国时间点要快，但两方信息差也在逐渐缩小。

虽然OpenAI代表的先进模型没有秘密，但我们仍然很难想象出下几代模型的含义：

到底什么样的才算GPT5，是Qstar、原生多模态、理解物理世界？
还有什么方向是最重要的，哪一个方向能够让模型更加智能？
相比先前的工程问题，这些更像是研究问题，OpenAI的人才密度带来了充沛的想象力，以及算力资源带来了充沛的试错机会。
Scaling Law大家坚信会走很久，但OpenAI在研发上敢于探索很多我们不敢想象的方向，差距不一定会缩小。

4 中国的方块与美国的方块

不同的土壤让创业者也出现了不同的方向。

移动互联网时代为中国培养了一批优秀的产品经理，产品经理定义需求和场景。

云计算时代为美国培养了一批优质的软件客户和擅长找到PMF的软件从业者，他们的入手点多从生产力提效开始。

美国有非常多Niche的小AI应用公司：

最早的AI应用网红公司Harvey和Jasper，都来自于Nitch的商业场景。
除了这些场景，还有更小的场景一出现就能立刻拿到标杆客户，靠创始人的朋友圈资源就能快速商业化。
例如Adobe CTO出来做的MarTech AI公司Typeface。
还有像比Jasper更加细分的2B Jasper Writer，仅做B2B领域的文本生成服务，在没拿到融资前就已经有十几个客户。

但与美国不同，中国的AI企业一开始就面临困难模式：

美国很多小的垂直场景都能赚到钱，客户的付费意愿很好，愿意为ROI买单，最近四年剧烈的通货膨胀也让客户更加意识到提效的重要性。LLM在这个时代也首先被定义成生产力提效工具。
但在中国截然相反，在中国将目标放在小事情上非常非常难赚到钱，必须要做大事情，或者可以从小事情开始，但必须有很大很大的梦想。

这也使得AI应用的方向与美国有很大的区别：

中国创业者非常看重2C场景，有跑出来迹象的像教育、陪伴、儿童相关，2C场景有机会做很大
移动互联网形态也为中国培养了非常不错的产品经理，带着产品经理眼光寻找需求、创造需求。
除了2C场景外，Go Global成为了AI创业者的必选途径。在Pannel上有一位创业者也提到他未来上线的几款产品都会先选择美国试水。对于LLM这样边际成本极高的创业，购买力对起步也非常重要。
Go Global对2C创业者很重要，对2B创业者可能更加重要，相当多的场景可能只有Go Global才能成立。

5 模型公司的下一步

“OpenAI做的是登月工程。跟着OpenAI后面走，会忘了还有开源社区，还有产品和客户需求。”

在与模型公司和创业公司的对话中，我发现模型的SOTA不是最重要的：

满足具体的应用场景和客户需求，对于使用效果更重要。
一位创业者在谈到做一款涂鸦产品的时候，在选择Image Captioning模型时，排名Top2的模型做出来不是最好的，反而第五、第六的模型做出来最符合他们的场景。
一位从业者在谈到做一款医疗产品的时候，第一版结合医疗数据的模型是效果最好的，后面学习了更多通用数据后，模型的幻觉比例反而提高了。

这也使得中国的模型公司更多开始考虑场景与需求的意义，理性看待自己定位：可能难以和OpenAI登月人的角色，但可以做出最适合客户的模型。

Panel中我还发现模型公司开始尝试做自己的应用产品：

要有做超级应用的能力，要能用自己的模型做应用。
进入应用层后，对模型的看法会比之前做模型有非常大的变化。
模型能力和用户需求不是天然一对一关系，会有非常大的GAP。

6 应用公司的下一步

为什么现在还没有看到令人兴奋的国内AI应用？在每一场讨论会中，都是最大的焦点。

我在这次Panel中听到了一线创业者的反思与尝试。

一位创业者反思了过去做语言模型中出现的问题：

现有模型的文本输出能力和智能能力都还没超过人类，所以在娱乐场景上非常难超出用户预期，但是娱乐场景只会选择99分的产品。
如果无法靠模型做到99分，就需要在模型外构建非常复杂的系统，这需要耗费大量的时间。
所以他将创业方向更多的转向图像和海外。

也看到了生产力提效创业者爱设计/AI PPT赵充的初步成功：

22年开始做在线PPT编辑器，然后很快就看到了SD上线。
爱设计团队在PPT编辑器基础上加了一层AI，迅速看到了ARPU提高。
相比全球巨头Office和国内巨头WPS，爱设计找到了自己的方块路线，面向最大众的普通人群，他们不会是专业服务从业者，更像是帮助小孩写家庭作业的家长。
面向普通人群，AI的能力也从Office专注的执行细节、公式，变成了美化、模版，以及面向企业端的AI定制模版。

一款优秀的AI产品，在专注AI的同时，可能不需要将AI挂在嘴边：

以市面上一款优秀的AI相机产品为例，其从没有提过AI概念，更多的是产品呈现和满足客户需求。
但用户会自然而然地想到，这样的AI效果就是我要的效果。
在未来不止是相机产品，短视频产品也会很快融入AI。

相比23年看到的很多Model as Product产品，找场景的意义远大于秀肌肉：

23年见到了太多因为要展示模型能力而做出来的产品，他们面向的不是客户需求。
模型在应用中的比重会逐渐降低，从一个单一大模型，到引入大模型+多个小模型，再到引入RAG，单一模型的重要性在降低的同时，系统匹配的要求逐渐提高。
这也使得应用更像应用，不像模型。

有一位希望打造AI原生应用的创业者提到了一个问题：

现在的大模型都是基于公域可得数据，基于互联网。
但还有非常多的数据没有被压缩进大模型。同时，AI原生应用也会生成更多的数据，并圈在自己的应用生态里。
AI原生应用从解决小问题的小智慧慢慢长大，以后可能变成大产品。
那内生数据，能不能长出来新的智慧？

在这次Panel中，我听到了非常多的点子。

诚然说还没有听到一个非常大场景，非常令人震撼的创业方向。

但就像前面说的，中国的AI应用创业者，就算从小事情起步，也都在想属于自己的大事情。

7 教育领域是国内最大的方块

在这次Panel上提到的最多应用想法是教育。

教育作为一个天然的存量大市场同时兼具2C+AI属性，并且已经在很多领域看到了AI尝试。

首先看到了录播课、作业批改等形式正在被AI改造：

新时代的录播课产品，可能是K12+多邻国形式。
看视频的时候可以随时点AI Tutor，回答学员的问题。有了LLM后，AI Tutor很容易结合正在观看的视频内容，定位到理解学员的问题。而且比人类老师更有耐心，更会夸奖。
作业批改的产品也很快，OpenAI就刚投资了一家2B教育公司，批改偏文科的作业。

而中国教育公司在进入全球AI市场时候也有自己独特的优势：

中国教育公司涉足的领域特别多，了解如何协调产品、品牌、运营，带来的整体优势。
教育的链条又特别长，老师、内容、交付、获客、品牌、服务、续费，这么长的链条只有中国教育互联网公司走过的。
中国教育公司也在LLM上投入了大量的数据，并且有丰富的Domain数据可供训练。

除了教育产品，与会还有创业者正在探讨应用LLM做学生的知识储备测评，阅读能力测评，进而可能帮助到书本等内容定级、内容匹配。

8 Sora如何改变世界

OpenAI对这个时代最大的贡献是领路人，通过最多的人才、钱和资源将AGI的方向指出来。

如果说当GPT4刚出来的时候，因为没有足够的公开信息，大模型追赶者们可能还不确定能否复现。但当Sora出来后，第一反应已经是可以复现，更多是资源和工程问题。

Sora复现的方向和难点：

技术上最直观的变化是应用Transformer代替U-net，再通过时间自编码器（OpenAI自主训练）把视频拆分成不同的Patch。
难点一是调节压缩率，场景需求不同，需要不同的策略，Sora用很多训练数据学习特定视频的表示方式，在压缩之后仍然能保留关键信息。
难点二是语义理解，Sora的诞生也依靠OpenAi自身的语言模型。
难点三是数据量，Sora所用到的训练数据可能比其他文生视频模型大两个数量级，这里面也用到了大量的Synthetic Data。
难点四是数据标签的方式，Sora用于打标签的模型本身优于市面上的其他模型，也会直接影响追赶者复现的进度和质量。
难点五是用卡，现在估算下来卡的用量在小几千级-大几千级，在海外可能比较充沛，但在国内仍然是非常珍贵的资源。
难点六是怎么控制参数和生成成本，短期更可能会选择做一个参数更大的模型来尽可能保证效果。

到复现节点来看，克服以上难点并且成功复现可能需要6-8月时间，但OpenAI快速迭代的能力也非常强，可能届时已经有Sora 2出现。同时尽快开放给2C用户，也会收集更多的用户反馈。

Sora也同时带来了模型公司排期的变化，过去都会优先训练大模型，或者先做LLM再做多模态。但现在更可能同时做，同样重要。

训练LLM模型需要基于Scaling Law，效果提升遵循对数指标，边际提高越来越困难。但在多模态的早期更像是直接取得线性效果，提升更加明显。

Sora的出现也可能对内容生态有很大冲击：

文生图到现在还没有对社会产生巨大影响，因为图片不是社会消费的最主流内容形态，但视频的消费重要性远远高于图片。
内容的生产供给速度会迅速提高，这可能会改变现有的MCN内容生态。
甚至在产品趋势上，会出现生成代替推荐，生成代替搜索的趋势。
字节可能是全世界最重视文生视频的公司，张楠负责剪映业务，蒋路加入字节，剪映未来可能会改变生成视频的方式，这对Adobe代表的专业视频制作工具也会有长期影响。

9 我们在1.0，即将进入2.0

现在的我们更像是站在LLM时代的1.0阶段，1.0阶段反馈在算力芯片和模型自身。这次的Panel也更多是在探索和讨论1.0阶段国内外最前沿AI从业者的思考与见闻。

进入2.0阶段，将是以应用为代表的叙事。

在这次Panel中，OpenAI的前研究员，现Leonis Capital的合伙人Jenny Xiao也分享了自己的看法：

2023年的应用生态仍然面临很多技术难点，包括Dataset准备、熟悉向量数据库/RAG工具用法、Finetune模型、实时推理、针对场景用户反馈的调整，这也使得搭建一个Native LLM App比最初想的要困难得多。
同时开发者企业的管理架构也需要适应LLM开发流程改变，职能需要精简，需要有更多研究人才，比起像运营一个App工厂更像是运营一家研究机构。
但随着LLM开发者生态越来越易用，以及更多先进LLM开发者的开发案例成为学习案例，也会看到应用生态的开发加速，我们有机会看到LLM的价值像下图一样自上而下拓展。