看到一篇晚点的文章《中国大模型生存战:巨头围剿,创业难熬》, 来谈谈个人的一些看法吧, 此文与作者所任职的公司无关, 仅代表个人观点.
1.创业公司和大公司的攻守
大模型的竞争, 即是算力资源的重资产的竞争, 又是人才密集的轻资产的竞争. 商业变现上的难度非常大.
2023年开始, 一夜之间冒出一大堆大模型创业公司和算力租赁公司, GPU卡的紧缺加上美国的管制, 甚至连搞调味品的都开始买GPU试图在流动性紧缩的时候通过算力租赁获取溢价收益. 而大模型本身又成了贬值最快的商品, 一次训练几千万, 还没赚到钱, 然后几个月后又有新的基础模型替代了.
另一方面, 和传统重资产的模式不同的是, 人也成了竞争的关键的生产资料. 晚点的文章已经有很多详细的叙述了, 就不多谈了.
正如文章所说的:“一年低消也要 20 亿-30 亿美元”,这超出任何一家中国大模型六小龙的总融资额。对于创业公司而言, 这是个地狱级的赛道, 如何避免和大公司的竞争呢? 有几个企业已经逐渐放弃基础模型的训练, 但是在商业变现上依旧存在很大的问题.
其实这个问题在前几个月《谈谈AI落地难的问题》中就谈过, 当前能够直接变现的或许就是在一些搜广推的场景上和量化交易的场景上. 搜广推偏向C端的叙事又要流量的支撑, 字节倒是很容易完成闭环, 而腾讯最近的ima也算是对公众号内容做到的一个很好的闭环.
2. 谈谈个人经历
本文中的观点和个人经历有一些关系, 在93年渣B读小学的时候就开始写代码, 然后96年接触到互联网. 初中时正好迎来互联网泡沫的高潮, 于是也做了一个财经类的网站, 但后来还是觉得搞数学/物理/信奥这些竞赛更加有趣, 因此就没有融资去发展,到高中时互联网泡沫破灭后就把它关闭了.
信奥保送到大学后, 还是觉得踏踏实实的读读数学挺好的, 任选专业没去试点班直接选了数学系.但在大学期间又和一群搞ACM/ICPC的人混在一起, 因此很早的就开始了金融数学/量化交易相关的研究, 也算是最早接触到AI的一群人了, 毕业论文也是搞的量化金融风险度量相关的研究.后来找工作的时候又碰上金融危机, 就选择去一个网络设备商搞点网络基础设施相关的工作,但是量化交易相关的研究一直在搞.
2014年底的时候, 好友(现在第四范式的总裁)在成立第四范式的时候, 也找到我聊过AI相关的创业. 但是对搜广推的这些C端场景确实个人不太感兴趣, 当然早期的第四范式还有很多和金融证券机构相关的信用风控一类的业务.最后还是选择了和另外一个好友去兼职做一些量化私募相关的工作, 而在思科由于负责中国区的市场相关的工作, 和各类大型企业的IT部门也有很好的客户关系, 因此开始探索一些将AI模型融合到各种企业的IT系统中.
基于CNN的图片分析/目标检测来构建自动化质检算是一个场景, 虽然当时AI四小龙风生水起,但是长期的ROI分析来看并不是很好. 后来尝试了一下直接对制造业产线上的PLC数据采集分析, 例如通过时序分析评估刀具磨损等情况. 还有一些电力行业客户采集数据做电网质量分析和电力调度相关的分析, 数据处理的实时性是很大的一个问题, 数据本身就很少, 建模难度也相对较高.
最根本的原因是这一系列的项目制的定制无法支撑起一个高估值的创业公司, 另一方面国内的大量制造业企业本身的数字化转型就很慢, 数据支撑太少, 于是渣B开始进一步向下走去构建一个分布式的计算平台, 同期也受到第四范式Sage AIOS的影响, 于是2018年开始在思科构建Nimble这个分布式AI Infra的工作, 基于Cisco IOT的边缘网关进行数据采集和实时分析, 汇总到数据中心侧的计算平台用于模型训练, 很遗憾虽然拿了CEO大奖, 但是公司并没有战略层面的支持,后来就离开了.
在算法上,当时很多时间序列分析都是基于早期的ARIMA/GARCH模型的, 这也是量化交易中早期常用的一些模型, 想通过它对传统行业的传感器监控进行赋能, 然后后期也做过一些LSTM相关的域名安全检测/垃圾邮件过滤等工作, 但是又发现端侧芯片的模型推理能力在当时是非常弱的, 时至今日很多稍微复杂点的模型都无法做到微秒级的实时推理, 因此很多场景的效果确实是受限于算力, 即便是Nvidia的Jetson/Xavier当时都还存在不少问题, 可能最近一些带NPU的移动处理器/嵌入式处理器的出现会产生一些积极的变化, 后面谈到具身智能(Embodied AI, EAI)的时候再来详细说
最近几年主要做的更底层,主要是一些芯片间高速互联的工作, 例如NetDAM构建以太网ScaleUP和随路计算能力, 例如RDMA网络的拥塞控制算法设计的工作以及未来还有一些更好玩的工作. 算力相关的工作涉密就不多谈了, 谈谈算法相关的问题吧.
3. 谈谈算法相关的问题
3.1 具身智能(EAI)
从国家战略上来看, C端并不是关注的焦点, 虽然C端的场景也可以诞生很多伟大的公司. 但是从国家层面而言,更多的在关注制造业的优势如何维持,伴随着具身智能(EAI)相关的机器人部署, 欧美国家在制造业可能会很快的补齐优势. 另一方面是中国STEM类人才密度优势逐渐被西方国家AI Copilot带来的人效提升追赶的压力.
EAI这一块, 国内还是非常有竞争力的, 当然对于嵌入式的计算平台上还存在一些问题, 很多算法上如果把推理速度提升到压毫秒级的实时控制可能可以适用的场景会更多, 当然这也需要算力配合, 而如今的嵌入式平台算力还是相对紧张的, 环境感知/态势预测/策略规划以及最后的机械结构伺服控制需要的算力还是非常高的, 真正留给应用的余量并不是很大. 另一方面复杂指令跟随的成功率还是相对较低, 导致可靠性还有一定的问题.
大模型的出现, 使得这些环境感知/态势预测/策略规划/伺服控制这几块通过多模态模型构建“端到端”模型的方案, 一方面消除了原有的复杂软件模块, 简化了系统架构, 提升了运行效率和系统的响应速度. 基本上国内的车企都在逐渐开始端到端模型的训练迭代了. 但是在传统制造业产线上, 其实还有大量的PLC编程控制逻辑, 这一部分的统一控制替代还存在很大的难度, 而中国B端生意模式上又存在大量项目制的定制需求导致无法标准化的供应.
在业务端碎片化程度较高的场景中, 通常只能在更低的一层去抽象, 在基础算力平台上构建能够支撑端到端模型算力需求的统一算力平台, 无论是边缘的SoC或者是一些云端的控制平台.
其实我挺看好硬伟大和联发科搞的端侧推理芯片的, 或许国内RISC-V生态能否去覆盖这个场景, 做到大概50R~100R的SoC,提供 8核RISC-V并携带50TOPS的NPU, 然后像山寨机那样去迅速占领市场. 然后在这一块提供一个<3B的基础模型和芯片厂家一起来分成, 然后基于大量的保有量基础上再来对上层软件平台进行统一化改造, 或许是一些大模型创业公司能够活下来的一条路.
3.2 Copilot/Agents
Coding相关的Copilot就不谈了, 逐渐已经产生生产力了. 在其它场景下可能存在的最大的问题还是幻觉, 法律/教育相关的一些App对于LLM推理的调用量虽然逐渐在增大, 但是LLM的推理结果还是需要人工校验一遍. 例如一个销售总监对销售情况的分析, 虽然可以通过各种报告各种BI系统拉取, 但是模型本身的推理能力还差了很远, 对于当期销售数据的分析上并没有太多的洞察力.
而国内也很好玩的是, ERP的系统建设中也是充满碎片化, 各种定制化的ERP系统带来的数据孤岛使得大模型的接入首先就要伤筋动骨的先完成改造, 或许这样的AI负责人还没把旧系统改造好就要滚蛋了.
说实在的Copilot/Agents这样的成功也就是微软在Office这些场景中积累了几十年的企业才有可能做到的,其它B端场景也是地狱级的难度, 或许在某个特定领域的Agent有一定的价值, 然后通过Model Context Protocol (MCP)集成到整个工具流中, 但是这些Agent的护城河还是太浅了,可能短期内会有很好的日活和现金流, 但长期来看并不是一个很好的选择.
3.3 金融大模型
金融大模型的核心其实还是在风险管理领域, 无论是买方或者是卖方, 风险管理都是绕不开的一个话题, 也是最消耗人效的地方. 但是在这一块能够提供端到端模型会是一个非常有趣的事情, 渣B前几年还专门去考了一下FRM就是希望能够在这个场景下做一些工作. 但是可能当前的基础模型训练的方式和算法架构离实现这块业务差距还很远.
现阶段的金融大模型可能还更多的是偏NLP类的应用, 企业内金融常识知识库RAG的构建, 以及一些简单的情感分析等. 对于风控体系中的大量风险测度的计算上, 当前的大模型还缺少一大块东西. 其实这也和当下很多大模型企业的组织结构相关. 基本上都是一个AI Infra的小组负责基础模型训练调优, 然后还有CV组, NLP组, 多模态组等几个有明确方向的团队.
事实上对于金融大模型的端到端, 模型结构和现在的大模型结构有本质的区别, 其实非常难让当前的模型嵌入到风控计算体系中. 它有大量高维的时序数据需要进行分析, 也有复杂的欺诈等交易链条的图分析模型. 同时对于这一块业务, 训练数据是奇缺的, 构造数据对模型训练的难度也是非常大的.
既然是风险管理, 当然这一块也有制造风险对手方, 那就是大量的量化交易团队的专有模型带来的竞争. 特别是在衍生品越来越复杂的二级市场内, 伴随着政策刺激的剧烈波动, 今年年初有一次涉及到DMA策略的影响, 今年国庆前后又有一次涉及中性策略的影响. 本质上风险管理还有大量的流动性预测的分析, 对于大型资管机构而言挑战会越来越大.
3.4 搜广推
现在来看, 更容易落地的还是偏C端的搜广推场景, 推理错了带来的后果并不是太大, 至少不会像制造业EAI这样会出人命. 而数据又可以很好的闭环,同时也非常容易进行灰度发布迭代.
如前几个在《谈谈AI落地容易的业务-搜广推》总结的, 传统的搜广推模型中, 通常是一个偏离线的训练结构, 虽然也用到了Transformer一类的Attention计算的算子, 但对于用户特征和商品特征的更新频度通常是按照天级更新.
而我们可能更需要的是一种近实时的推荐系统, 就像一个导购/管家一类的. 而如果我们能够对用户的近实时行为通过LLM进行语言描述, 并通过这样的语言描述作为一个Context Representation, 再混合到Ranking模型中会是一个很不错的场景. 但是这一类大的C端企业基本上都有自己的团队, 即便是二线的一些互联网企业在算力约束下也可以用一些开源的基础模型FineTune, 留给大模型创业企业的机会并不多.
3.5 AI For Science
这一块其实也是一个很大的市场, 例如蛋白质结构预测的模型上卷的也非常厉害, AlphaFold3都被迫开源出来了. 另一方面在一些偏微分方程数值计算上也有很大的突破, 但是计算精度上还存在蛮多的问题需要解决的. 气象模型这一块也卷的非常厉害. 分子动力学上国内也有一些不错的企业.
这一块可能是真的可以脚踏实地的去做的一个场景, 但是对投资机构和创业者的耐心要求极高, 整个投资回报周期太长了.