AI观察20240613:苹果,小模型批发时代

文摘   科技   2024-06-17 09:30   中国香港  

关注共识粉碎机,获取历史讨论会纪要

公众号会定期更新一些对AI行业的看法,内容会较久谦小程序和PC论坛平台延迟发送一周时间,如果对详细内容感兴趣就点击下文的久谦销售同事进行试用或采购。

本周同期开始路演付费报《互联技术以及未来发展趋势》:

  • 在刚刚结束的ComputeX keynote speech上,黄教主重点展示了未来十万和百万卡的集群能力。Scaling law 本质上是通过不断增强算力、提升模型参数和训练数据,从而提高模型的性能,启用更多高价值的应用场景。

  • 随着摩尔定律逐渐失效,Networking技术已成为算力行业的核心。传统的投资研究往往局限于光模块或交换机等单点研究,缺乏整体研究框架。同时,Networking行业正经历剧烈的技术变革,各种新技术层出不穷,并在大模型的推动下,以前所未有的速度加速迭代。然而,市场上对这些前沿技术缺乏深入的研究和讨论。Nvidia的壁垒已远不再仅仅由CUDA和GPU定义,需要更全面地结合大模型的演进,研究Networking软硬件技术,才能真正理解Nvidia的竞争优势及互联行业的投资机会。

  • 在这份研究报告中,我们将从机架内、机架到机架、数据中心网络的整体角度,全面研究数据中心内网络互联技术的演进趋势,以及各类硬件的需求占比,涉及OCS、CPO、OIO、Dragonfly、IB、RoCE等技术及相应的投资机会。

  • 最后,市场上对于Networking的分析大部分只局限于训练集群,我们也会结合GPT4o和未来的新模型的需求,来分析推理集群的networking需求。

本周同期开始路演付费报告北美算力租赁厂商近况及供需平衡情况

  • 算力租赁行业的商业模式,AWS、Coreweave、Lambda们经营情况如何

  • CSP们的反馈到底缺不缺卡,处于供需平衡的什么状态

  • H100卡随时都可以拿到了,我们怎么看待周期变动

1 WWDC与AI Agent未来


1.  我们调研了一些小模型公司以及端侧场景,发晚了两天。

2.  苹果讲了一个按Query难度分发模型的模式:

  • 3B小模型:大多数场景,包括自动回复、改写、语法检查、Summary都用端侧的小模型跑。

  • 苹果大模型:推测在几十B左右,按目前的芯片能力可以跑通,估计不会是7B因为7B的模型不会比3B有非常大的性能提升,跑在苹果的Private Computing Cloud上面。

  • GPT4o:现在Private Computing Cloud上面做安全处理,然后脱敏数据再调用GPT4o,计算跑在Azure上面,除了可以做对话,还可以做邮件等场景复杂(不涉及个人信息)的写作辅助。

  • 在Windows Copilot等应用产品中,也多见大小模型混用的场景。

3.  苹果PCC的价值:

  • PCC是苹果的private 节点,这个主要是通过加密、IP隐藏、无状态化、收紧特权权限、环境加固实现的,涉及个人隐私的数据(如个人生活照片、Message和邮件)通过加密进去了就不会再去外部环境了。

  • 而GPT-4o不会部署到PCC节点里面(OpenAI不会把模型给APPLE),所以GPT-4o只能处理非Personalized处理后的数据和相关的request。编排层是PCC和手机端联动模式(如果纯放在云端加密传输,延迟增加,用户体验不好,所以放在终端可能性大)。

  • 要保证和大模型交互端到端的隐私数据安全,尽最大可能保证被攻击面的缩小,整体来看苹果这套PCC的方案非常复杂复杂,涉及到芯片、软件、云端、终端整套的硬件、软件的安全方案,还要考虑到最后的用户体验的优化,对于其他手机厂商来说复刻出来非常有难度。

4.  3B的小模型能做什么场景:

  • 我们首先说一个结论,小模型处理问题的难点不在于长度,而在于任务难度。

  • 所以在苹果所列的场景里,因为其场景主要是Summarize,3B模型已经可以胜任。

  • 包括更复杂的邮件场景,类似Outlook Copilot这样一次处理几十封邮件,在现有的3B+64K context window也可以跑了。

  • 在未来,特别是GPT5后,小模型可以直接在B卡上通过蒸馏的方式完成,用更强的大模型、更高质量的数据,来帮助训练小模型,端侧的能力也会进一步提高。

5.  未来可以想象到什么:每个人都有一个属于自己的小模型

  • 我们未来很可能会见到每一个用户都有一个7B规模的Personal SLM,用户可以将行为与数据上传到iCloud上,然后经过脱敏定期Finetune属于自己的模型。

  • 如果我们抽象来看这就像是一个推荐系统算法,只是推荐系统算法是一个很稀疏的模型,只有不到10层,大部分的用户数据都存储在第一层,通过激活不同的参数来实现个性化推荐。

  • 那在小模型时代,可以只存储你自己的参数,Predict Your Next Token,预测用户的下一个行为。

  • 这就像自动驾驶场景,端侧公司有着最闭环的驾驶数据(用户数据),而且可以更安全的做到脱敏。

6. 未来的Personal Agent流量入口在手机不在Super APP:

  • 这几天我们又与十几位Top Research一起讨论了下Persenoal Agent的未来。

  • 除了上面提到的Personal SLM外,大家都非常认同未来手机厂商做Personal Agent因为数据以及权限上的巨大优势,几乎是碾压现在App应用自己做的Personal Agent的。

  • 这也让苹果在未来的应用生态上又拔高了一个身位。

7.  Apple与OpenAI合作了什么

  • 目前来看Apple大概率没有付钱给OpenAI,在现有的调用模式来看,GPT4o应该也不在Private Computing。

  • 整个的合作形式,相当于Apple给ChatGPT开了一级入口,Apple免费用ChatGPT的用量。

  • ChatGPT得到了近似于预装的机会,未来有升级到付费版的可能。

  • 如果苹果11亿DAU里面,有2亿DAU是ChatGPT付费版用户,那相当于OpenAI获取500亿流水,苹果抽成100亿,然后Azure拿到200亿的GPU租金。

  • ChatGPT 200mnMAU的话,DAU估计在50mn左右,用了~3万H卡算力支持推理。如果iOS端全部用4o,能做到200mnDAU的话,相当于人数4倍*单人算力10倍,要到百万卡算力。如果未来用到Personal SLM的话,数字就更难估算了。

我们目前已经启动了针对AI手机以及Personal SLM的新报告,除了对硬件进行讨论外,还会大量讨论前沿端侧AI的未来发展。



我们正在发售两篇报告,其内容是:

  • 互联技术以及未来发展趋势(本周可约路演)

  • 北美算力租赁厂商近况及供需平衡情况(本周可约路演)

尚有三篇报告正在调研中,其内容是:

  • 美国数据中心与电力情况

  • AI客服的进展与影响

  • AI手机以及Personal Agent场景

在过去的一个月,我们已经发售了三篇报告:

  • 算力需求场景测算

  • AI与GPU在META中的应用

  • 微软Copilot进展、GenAI售卖场景以及如何影响公有云选择

对报告感兴趣,或者对我们的日常调研纪要(每月超过50篇AI调研纪要)感兴趣的请联系下面的久谦销售同事:



大模型未来三年的十个假设


Data Infra:大模型决战前夜

共识粉碎机
寻找与共识的不同
 最新文章