腾讯研究院大模型研究小分队出品
自苹果推出AI手机以来,端侧大模型的产品发布进入加速期。
10月10日,Vivo推出蓝心端侧大模型 3B,其AI能力已覆盖60多个国家和地区,服务超5亿手机用户,大模型token输出量超过3万亿;随后,字节发布首款AI智能体耳机Ola Friend,与豆包深度集成;18日,荣耀同期发布了Magic OS 9.0 ,打造AI OS,其上的YOYO智慧助手已经打通了多款APP,可以实现一句话充值、一句话点外卖等服务。中国信通院与荣耀等企业还共同发布了《终端智能化分级研究报告》,推出了行业首个终端智能化分级体系。
23日一早,Claude发布重大更新,Claude 3.5 Sonnet版,并推出“computer use”新功能,即计算机控制,可以按照用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与计算机的互动方式,一句话操控电脑的时代可能来临;当天,三星与智谱宣布战略合作,将携手在AI手机领域展开深度共创。也是同一天,OPPO宣布实现了全球首次MoE(Mixture of Experts,混合专家模型)在端侧的落地,提出了AI即系统(AI as System)的愿景,全新小布支持超1800项指令,让用户只需要简单的语音指令,就可以完成对应的手机设置或应用操作。25日,智谱发布AutoGLM工具,用户可以一句话实现朋友圈点赞、写评论、电商网购、O2O平台写五星好评、外卖下单、高铁购票等众多任务。
可以看到,端侧大模型的浪潮汹涌而至,原有的用户体验和生态格局将迎来革命性重塑。
一、端侧大模型的兴起
端侧大模型指在终端设备(如智能手机、平板、PC、智能穿戴设备、自动驾驶及具身智能等)上运行的大型预训练模型。相较于云端大模型,端侧大模型需要在资源有限的设备上高效运行,这对模型压缩、推理加速及能耗优化提出了更高的要求,其核心技术特点在于轻量化。
当前主要的轻量化技术包括模型剪枝、知识蒸馏和量化。
一是模型剪枝,即通过去除不重要的参数来降低模型复杂度,其基本原理是评估各个参数对模型性能的影响,并去除对最终结果影响较小的参数,从而实现模型的稀疏化。例如,NVIDIA的APEX库提供了剪枝工具,可帮助开发者快速识别并删除低权重参数,使得许多在手机上运行的大模型得以显著压缩。
二是知识蒸馏,是一种将大型复杂模型(教师模型)知识传递给小型高效模型(学生模型)的技术。在保持模型性能的前提下,这种方法可显著减少模型大小与计算需求。TinyBERT是经典案例,通过对BERT进行蒸馏,将其参数量减少至原来的1/7,并在多项自然语言处理任务中保持良好性能。
三是量化技术,指将神经网络中的权重与激活值从高精度浮点数转换为低比特宽度整数(如INT8、FP8或INT4等),以降低存储需求和计算成本,同时尽量维持模型性能。例如,智谱的GLM-4-9B采用FP8量化,使得该模型能够在资源受限设备上高效运行,并通过量化感知训练在低精度计算中取得显著效果。
上述技术往往组合使用,以实现最大的轻量化效果。例如,苹果的人工智能Apple Intelligence针对iPhone优化的端侧大模型Apple On-Device,通过生成专项任务小模型、动态加载和交换适配器、整体量化压缩,并结合特定的JSON结构化提示词,使得3B的小模型在特定任务上表现优异,可媲美诸如Mistral-7B和Gemma-7B等更大的模型。
端侧大模型之所以成为未来趋势,主要原因在于其实时性、保密性和经济性。实时性主要体现在数据的本地计算,借助端侧大模型,用户大部分数据处理均在本地完成,只有少量高算力需求的场景会调用云端算力,从而减少对云端的依赖,大幅提高响应速度。且在没有网络的飞机、信号差的高铁等场景下,手机和电脑上的端侧大模型都可以7*24小时使用。同时,端侧大模型具有低时延的特点,非常适合对实时性要求较高的场景,如自动驾驶、智能机器人等,可以实时进行对环境的判断,并做出行动决策。这种方式下,也让用户数据的隐私保护更强,因为用户数据无需上传云端,从而降低数据泄露风险。此外,端侧大模型的计算均在用户本地的设备上进行,无需使用手机等厂商的云推理服务,也就不涉及到付费,从而减少用户使用成本,也节约了大模型厂商的成本压力。Vivo的相关负责人曾表示,云端运行大模型的成本非常高,vivo有3亿中国大陆用户,如果每天用10次,一天的运算成本大概是3000万元,一年需要花费约90-100亿元。
二、端侧大模型将率先
在手机领域爆发
端侧大模型的应用场景广泛,未来,AI推理将在手机、PC、耳机、音箱、XR、汽车,以及其它可穿戴式新型终端上运行。如Humane 的 AI Pin作为新型终端,搭载GPT4,可实现智能语音交互。英伟达的Chat with RTX,用户只需8GB的RTX 30或40系列显卡,即可在本地PC上运行大模型,并打造自己的知识库,让端侧大模型的应用更为便捷。其中,智能手机和电脑是当前端侧大模型应用最有前景的领域,端侧大模型可以实现图像处理、自然语言理解和生成、人脸识别、语音助手和翻译等功能,在电脑侧,端侧大模型还可以分析用户自身的各类多媒体文件,生成用户自己的个性化小模型。
在手机侧,可以预见,原生AI OS是未来的重点方向。这意味着,端侧大模型除了生成内容,还可以调用手机上的各类应用程序,让用户更方便地完成各类操作。手机端侧大模型的期望是成为新的交互入口,比如用户只需要跟手机助手聊天,就可以实现照片美化、并为图片配说明文字后一键转发朋友圈。而且用户通过手机助手还可以直接点外卖、打车、购物、发短信等。一旦手机助手实现了调用各类应用的功能模块,手机大模型就有可能OTT掉大量APP,使得APP沦为在后台为手机打工的角色。这将进一步强化手机企业在生态内的话语权,可能让硬件主导分成的苹果税(30%)等方式更为持久和强势,因此,如何兼顾基础软硬件和上层应用协同发展,成为我国在AI时代能否持续发挥应用优势的关键。
端侧大模型的到来,有望给全球手机市场注入新的增长力量。近年来,全球手机市场已进入缓慢增长的态势。根据IDC咨询公司的数据,2023全年,全球手机出货量11.669亿台,同比下滑3.2%。根据TechInsight的数据,到2023年,全球智能手机的换机周期将延长至历史上最长的51个月。在中国,消费者的换机速度稍有增加,但仍超过40个月。借助端侧大模型,手机市场将迎来新亮点和换机动力。根据IDC预测,2024年全球GenAI智能手机的出货量将同比增长363.6%,达到2.342亿部,占2024年整个智能手机市场的19%。到2028年,IDC预测GenAI智能手机出货量将达到9.12亿部,2024-2028年的复合年增长率为78.4%。
未来,端侧大模型的技术发展路径,将向专业化任务的小模型优化、多功能与多模态能力集成等方向拓展。专业化任务的小模型优化方面,通过蒸馏与微调打造具备特定专长的小模型,持续探索压缩的极限。此类端侧大模型主要用于手机、平板、PC及智能穿戴设备中,优化方向聚焦于突破设备电池容量和算力的限制。例如,Apple Intelligence的Apple On-Device侧重于智能回复、辅助撰写等任务,其目标是通过轻量化实现文本和泛文本生成能力。多功能与多模态能力集成方面,在保持约3B/7B参数规模的基础上尽可能融入更多功能和多模态能力。这类大模型适用于自动驾驶、AR/VR等增量硬件市场,其中智能汽车具备相对充足的算力与电池资源,可实现卓越的性能与用户体验。例如,国产厂商的MiniCPM-V 2.6通过多模态优化,在7–8B参数规模下覆盖更多终端类型与应用场景,量化后的内存仅约6GB,推理速度达到18 tokens/s,可媲美GPT-4V的性能表现。
从长远来看,端侧大模型还将与云端大模型结合将解锁更多应用场景。根据Scaling Law法则,云端模型在综合能力上始终领先于端侧模型一个数量级。例如,谷歌的轻量级小模型Gemma 2 2B是从更大规模的云端模型蒸馏而来的,而苹果的Apple Intelligence通过对标GPT-4的云端模型Apple Server来处理复杂任务,端云协同机制不仅克服了终端设备算力和电池的限制,也为实现更智能的端侧功能提供了强大支持。
三、国内外端侧大模型的发展态势
大模型正在加快向端侧迁移,新交互、新终端持续涌现,可能给行业生态利益协调带来新挑战。目前国内已推出小米MiLM,VIVO蓝心大模型、OPPO安第斯、荣耀魔方等端侧大模型。
三星推出了由谷歌Gemini驱动的新智能手机,9月10日,苹果正式发布iPhone 16,首次将大模型部署在手机内存中,被称为“AI iPhone”。对于润色文字等简单任务,手机无需联网即能完成。面对复杂任务,苹果则采取“端侧大模型+云端大模型”的技术方案。iphone16 不仅可以生成文字、总结文本、回复邮件等,还可以生成表情符号,搜索照片、视频等,执行多种任务,未来还可能实现对APP的功能调用,为用户带来更丰富的智能体验。
模型本身方面,由于端侧大模型更多是从更高一级的基础大模型进行轻量化而来,如上述提到的Gemma 2 2B、微软开发的AI小语言模型(SLMs)Phi-/3.5系列等。因此,国外大语言模型具有一定的发展优势,但国内并非不可追赶,一方面国内基础大模型正在崛起,另一方面基于开源模型国内也有一些厂商做专门的优化。比如:5月29日,斯坦福的一个研究团队发布了一款宣称能够“改变现状”的产品:Llama3-V。该产品号称只需500美元,便可以基于Llama3微调出一个强大的多模态模型,效果堪比GPT-4V等一线模型,而参数规模仅为8B。该产品在推特上发布后迅速走红,并跻身「HuggingFace Trending」Top 5。然而,不到两天时间,该项目被指大量剽窃了清华与面壁智能合作开发的多模态模型MiniCPM-Llama3-V 2.5。
除此之外,端侧大模型的发展也许还有一个更为决定性的因素,即生态。比如,微软作为端侧模型的有力竞争者Phi-3/3.5的开发者,除了模型本身,还提供了一套名为Agents的工具(Copilot的自定义版)。通过Microsoft Copilot Studio的升级,Copilot+PC不仅可以调用Windows附带的40多个端侧AI模型提供支持,还可以构建成百上千的自动化业务流程,在客户需求下独立工作,从而实现长期运行的业务流程自动化。未来,我们在手机和PC端体验到的端侧AI,大部分将是通过适配器和分类器挑选的微调小模型,以及经过自定义开发的Agents,以满足我们的需求,而无需调用全量的模型参数,是更具性价比的方案。除了微软系统生态之外,包括上述提到的Gemma 2 2B、Apple On-Device等,背后是安卓生态与苹果生态。由于手机和PC的保有量占据绝对优势,它们理所当然地成为了端侧AI的最佳落地方向,而生态位是一道较大的竞争壁垒。
四、未来影响初探
产业层面,苹果、谷歌携芯片+操作系统+端侧大模型的垂直一体化整合优势,再次领跑行业,将巩固和扩大其生态优势。在未来的商业生态竞合中,苹果处在较优位置。苹果携IOS、原生应用与硬件强绑定的先发条件,加上C端用户价值高、支付闭环,其优势地位会进一步提升。Siri是苹果端侧大模型的主要入口,未来可成为AI原生OS的超级入口。但是,在没有大量优质的训练数据的情况下,苹果基础模型的短板难以在短期内弥补。因此,苹果仍保留了与Open AI、Google等外部大模型合作的接口。可以预见,苹果最终的方向是实现从端侧和云端芯片到自研大模型,再到手机终端和应用商店等全体系的自研闭环。
数据隐私层面,手机端侧大模型对用户隐私保护有吸引力的一面。相比云端模型,用户可以选择在手机本地上完成数据处理,在本地终端就可以享受到AI便捷高效的服务。然而正如从桌面互联网、移动互联网到目前步入AI时代,便捷服务的背后是更广泛、更深入的数据汇聚,对个人隐私保护提出了更大挑战。以微软AI产品Copilot为例,使用Copilot意味着用户将授权微软打通跨越各业务平台的个人数据。正如微软隐私政策所陈述,为实现业务提供,改进和开发产品等目的,微软会从不同的业务环境中收集的数据进行合并处理;懂你的智能手机助理的背后是大模型充分访问、链接个人数据,此类数据的访问处理如何以安全、合规、保护隐私的方式进行,对安全技术保障措施提出了更高要求。此外,在移动互联网时代,个人可以通过行使删除权来保护个人信息,然而在特定的模型应用中,依照模型的学习原理,即使删除了个人对模型使用信息,个人信息也依然可能转化为了一种“知识”、“规律”、“特征”嵌入在模型之中。
竞争秩序层面,一是在大模型竞赛中,端侧大模型被集成进操作系统,获得最优权限和数据,在大模型竞赛中占据更强话语权。在终端能耗、内存、算力等客观限制下,终端较APP更能优先部署AI能力。二是在更广泛的移动互联网生态竞争中,端侧大模型的最终目标是推动手机发展成为AI Agent(移动智能体),成为连接用户和数字生态的入口。基于用户输入的需求,绕过APP UI,智能唤起APP提供照片美化、点外卖等功能,或者直接完成用户所需的各类充值、购物、社交、搜索、娱乐等各类服务。APP弱化为硬件的后台服务提供方,失去独立触客渠道;或者相关功能直接被上游端侧大模型替代,其中工具类APP被替代风险更高。9月发布的苹果iPhone16(AI iPhone),已具备跨应用进行AI操作的能力,升级的Siri也能够直接控制iPhone进行图片编辑。联发科和Counterpoint共同发布《生成式AI手机产业白皮书》预测,智能手机交互体验从GUI(图形用户界面)发展为VUI(语音用户界面),并最终升级为Agent(app-less)UI。APP存在感和独立性被弱化,也将导致软件生态整体活跃度和繁荣度下降,中小APP触客更难。手机企业在生态内的话语权进一步强化,甚至可能发展出按调用收费等商业模式。
因此,为保持生态的健康可持续发展,需关注AI时代的生态繁荣和红利共享问题。智能终端天然具备底层的硬件和OS优势,但在内外力约束下,终端和软件、APP的服务边界相对清晰,运行在各类终端上的软件生态才得以繁荣。软硬协同发展模式,有利于发挥我国应用领先优势,形成蓬勃生态,也为广大中小创业者提供发展空间。同时,需要各方协同探索端侧大模型协同发展的基本原则。在我国现行数据安全、个人信息保护、市场竞争法律规定下,针对端侧大模型发展中可能存在的安全和竞争风险,如个人数据访问处理范围、权限获取的公平性、调用APP提供服务时如何保障用户选择权等,明确基本规范,凝聚行业共识,牵引长远发展。
李瑞龙:《端侧AI的终极形态》
李瑞龙:《AI图像革命才刚刚开始》
👇 点个“在看”分享洞见