北京时间9月10日凌晨,苹果正式发布了iPhone 16,这是苹果第一款真正意义上的 AI iPhone。Apple Intelligence采用“端侧大模型+云端大模型”的方式,将为用户带来更丰富的智能体验。而这仅仅是端侧智能的开始,未来我们可以想象,一个由大模型带来的移动智能生态正在缓缓打开。
太长不看版:
1.技术:端侧模型短期能力有限,端云结合是长期状态
● 手机端侧大模型瓶颈排序:
●~1B量级模型能力有限,性能提升空间不乐观
●手机端侧模型有实际价值 -> ~10B模型塞到手机里 -> 估计3~4年
○ 端侧模型 + 云上模型 的配合能力将是核心技术点之一
○ 从用户价值看,端侧模型并不是必要路径
2.产品:短期以小功能为先导,长期价值期待释放
●当前AI 手机以功能探索为主
●LLM是端侧模型重点;多模态生成在手机上的用户价值有限,更大的价值在于多模态理解
●硬件粘性和价值 > 模型品牌吸引力
●未来具备用户价值潜力的新领域:AI原生OS
引子:
<问题1>从用户角度出发,“智慧手机”的“价值”是什么?
<问题2>对于用户来讲,为什么要在端侧搭载模型?
<问题3>从厂商角度出发,手机端侧模型的“价值”是什么?
纷纷推出端侧大模型
去年以来,各厂商已经推出了多款端侧大模型手机。
苹果的新款iphone16搭载了更快的CPU、GPU,且在能耗上有更好的表现。以GPU为例,A18芯片是四前iphone 12的A14芯片速度的2倍。
相比去年A16芯片,在速度提升40%的同时,功耗下降了30%,为大模型的本地运算提供了更好的电源保障。
利用端侧大模型,iphone16 不仅可以生成、润色文字、总结文本、回复邮件等,还可以生成表情符号,搜索照片、视频等,并执行多种任务。
发布会中最为惊艳的功能之一,是视觉智能。比如,当你看到一家餐厅,你可以通过按压相机控制按钮拍下餐厅,然后就能通过 Apple Intelligence获得该餐厅的营业时间以及点评,并查看菜单或预订餐厅。
该功能也支持和第三方 APP 联动,比如,看到你喜欢的自行车,只需点击一下,即可快速Google到类似的自行车并购买。
除了苹果,去年以来,各大手机厂商已经陆续发布了其端侧大模型的产品:
端侧模型的成熟度?
1.参数规模:“智商”水平至关重要,端侧模型任重道远
大参数+量化 vs 小参数:大参数+量化效果上优于小参数
当前量化已到极限:BF16量化基本安全;INT4量化是当前大多手机使用的方式,但经常出现过拟合和稳定性问题;当前在探索INT8量化的折衷方案
~10B模型是当前模型能力分水岭
提升参数规模的瓶颈包括计算、内存读写和能耗,其中能耗最难突破
2.推理速度:良好用户体验的基准是20token/s,目前刚刚达标
现状推理速度:最高达20token/s,刚刚达到可用门槛,仅有PC端的20%,差距明显。
miniCPM-2B Int4量化在部分主流机型上测试的推理吞吐速度,除iPhone外均在7token/s以下
当前在英伟达RTX4090运行Llama 7B 4bit的推理吞吐速度为100tokens/s以上
最新一代的高通或联发科芯片在芯片厂商的测试中Llama 7B INT4量化的推理速度能达到20token/s
推理加速技术+预判
目前没有明确的SOC AI推理加速定量证据,我们采用NVIDIA数据中心B200(vs H200)作为参照,认为每代更新可以有50%+的功耗效率提升和10%+的推理速度提升
推理运算加速:Google TPU的MXU(Matrix multiplication unit)Nvidia的Tensor Cores针对神经网络中大量的张量计算的加速;联发科针对transformer架构的Softmax+LayerNorm算子的加速;高通骁龙Gen3的微型区块推理单元,将大模型分解为可以独立执行的部分。
内存读写速度优化:Google TPU使用大规模片上内存,减少数据在HBM(High Bandwidth Memory)和VEM(Vector Engine Memory)之间传输的次数;苹果探索通过窗口化(Windowing)和行列打包(Row-Column Bundling),在闪存中存储模型参数,并在推理过程中按需将这些参数加载到DRAM中。
其他技术进展:联发科NeuroPilot Fusion基于低秩自适应(LoRA)融合技术,基于一个基础大模型,通过云端训练,在端侧完成多个功能的融合,从而赋予基础大模型更全面、更丰富的生成式AI应用能力。
AI agent的推理速度要求:50~100 tokens/s
目前国内商用LLM API输入处理速度可达数千tokens/s,生成速度平均在30-50 tokens/s,最快可以达到70 tokens/s(如abab-6.5s和智谱GLM3.5-turbo)。
用户体验角度,假设一次Agent操作要调用5次大模型,则需要速度达到100 tokens/s。
3.能耗:发热&续航表现短期不会大幅优化,是手机端侧大模型的主要瓶颈
现状:目前没有大规模测试端侧模型推理的功耗;以游戏运行为benchmark,功率大约在4~7W,续航时间仅为3~4小时
崩坏:星穹铁道最高画质各机型实测结果(by 小白测评数据库,续航时间基于标准输出电压3.7V估算)
电池容量增长分析预测:未来每年增长不超过5~10%
以iPhone和三星galaxy为例,近10年平均每年增长5~6%,尤其是21年以来,手机尺寸不再增大后电池容量也几乎没有增长
注:电池容量单位mAh,
每年取该系列电池容量最高的机型数据
制约手机电池电量增长的因素包括:
4.搭载~10B模型的时间预计 = 3~4年
3-4年后:
因此,3年内看不到纯端侧模型驱动的AI原生OS,复杂任务都需要云上实现。
5.端侧多模态大模型:端侧的价值主要在多模态理解,而不在多模态生成
多模态生成不在端侧
目前技术路线:端侧多模态 = LLM + 多模态理解
因此,端侧算力瓶颈,在LLM而不在多模态。
当前多模态理解的主要应用是录屏理解;不过这是个过渡方案,远期会被更直接的数据获取方式取代。录屏理解的目标是辅助用户进行手机操作,广义上属于操作系统的一部分。长期来讲,手机厂商通过合作等方式获取root授权,然后在APP内操作,这是更加AI原生的OS实现方式
具体节奏除了取决于技术进展,还取决于手机厂商和APP厂商的合作探索
长期端侧多模态模型的任务则退化为读取、 理解APP内部的图片、视频等信息(非截图),不一定需要重大技术突破
的关键技术 - AI Agent
AI Agent:正长期持续快速发展;但到达大学生智能的Agent还有距离
1.Agent = 通用-自动化-决策&执行 能力
2.Agent需要包含哪些部分
Lilian Weng (OpenAI) 对Agent能力的拆解
记忆问题是思考能力的源头,也是当前研发难点
3.有关“记忆”: 我们的记忆分很多层
当前处理“记忆”的主流方案https://arxiv.org/abs/2312.10997
但现状做法有很多“不自然”的地方:
转Text导致的信息丢失 -> Unified Embedding (e.g. GPT4o)
信息以prompt方式为主进入模型 -> 长期记忆+短期记忆的交互机制
4.Agent的发展阶段
Agent 1.0(现状)
●工具调用:趋于成熟,且可通过微调7B模型+retrieval,在端侧实现。主要做法是前置工具描述数据集 + Retrieval做update;但受制于前置工具集的文档精确性、及时性;当前的成功的比例仍难以直接满足商用。此外,大模型self-instruct指令生成工具调用数据集,对agent进行微调
●Planning:基本的给定范围内的拆解能力,成功率&稳定性需要提高。主要是通过System prompt预先设定agent的角色、工作流程、能力栈等。基本做法是任务拆解(CoT等)以及通过Self-refine/Reflexion/ReAct增加可靠性
●短期记忆:各类RAG为主;知识图谱&前置分类器是上一代技术
●长期记忆:Finetune作为一种方式,但目前成效有限。有思路认为通过“超长文本”,可以不解决长期记忆问题。“把人类一生的经历都用文本框输入,就不用记忆了”
Agent 2.0(未来1~2年)
Agent 3.0 (3+年)完全自主?
1.现状是云上为主,端侧为辅
真正的大模型场景,是过去NLP/CV做不了、有了大模型才能做的场景;“假”场景则是过 去NLP/CV就能做的场景。目前已成熟的“真”场景局限于:知识问答、聊天陪伴、总结、brainstorm图/文生图等,均 属于APP内应用
2. 端侧 & 云上的长期并存是大势所趋
既定事实:1)端侧模型能力<云上模型能力 2)手机模型训练/精调只能在线上
2.1 困难的技术限制
2.2虚幻的用户价值
2.3 手机厂商的商业价值
流量/收数:AI原生OS是手机厂商与APP生态建设的重点;AI OS的功能理论上可以通过云上模型解决,但端侧+云上的模式会是多方协商合作的结果
变现:
●从技术的角度,端侧大模型不是孤立的技术,而是跟AI芯片(GPU/TPU等)、操作系统共同形成一个完整的技术体系。
●手机端侧模型在未来3~5年的天花板可能在~10B级别,这意味着仍然需要与云上大模型配合,才能实现通用Agent、复杂COT/TOT、超长文本等高级功能。
●从用户的角度,对硬件的粘性远超软件。端侧模型是否真正能为用户创造价值还有不确定性;与OS的结合似乎是必经之路。
●大模型(不管是端侧还是云上)都为生态带来了新的变量。以前的“APPx硬件”流量入口格局还要加上“模型”。
👇 点个“在看”分享洞见