腾讯科技作者 郭晓静
骁龙峰会,可以被称为消费电子界的春晚。每年此时,高通都会在峰会上揭晓其最新的旗舰移动平台。很多手机品牌也会在这个时间之后,竞相推出搭载最新骁龙芯片的旗舰手机。在手机端的各种新的用户体验,也会以当年骁龙芯片的能力为最强技术底座,开始一轮令消费者眼花缭乱的功能创新。今年的骁龙峰会,毫无疑问,能留给人最深刻印象的是两个关键词——Elite和AI。
2024骁龙峰会共有三个重要产品发布:
● 骁龙8至尊版(Snapdragon 8 Elite)移动平台
● 骁龙座舱至尊版平台(Snapdragon Cockpit Elite)
● Snapdragon Ride至尊版平台(Snapdragon Ride Elite)
Elite曾在去年高通发布的PC平台——骁龙X Elite中亮相。据高通官方介绍,“Elite这一命名专门面向高通最先进的产品,代表最强性能、最高质量和最佳创新。”尽管高通官方并没有明确说明,但是我们注意到,所有以“Elite”命名的产品背后,都采用了高通定制的Oryon CPU。
这个CPU可以说是骁龙移动平台全自研的最后一块高地,至此,GPU、CPU、NPU、ISP及通信等重要模块,均实现自研。高通也在峰会现场展示了骁龙8至尊版移动平台的最新性能。
生成式AI爆发之初,人们就达成共识——它是一个“吃算力”的怪兽。不仅在训练时需要消耗巨大算力;在进行推理时,也需要巨大运算量并占用较大内存空间。这就对移动平台的性能提出了更高的要求。
图:骁龙8至尊版的架构图
在手机的移动处理器中——日常被泛称为手机芯片,有几个重要的组成部分:
CPU(中央处理器):就像手机的大脑,负责处理大部分的思考和决策工作;
NPU(AI引擎):更智能、更快速的实时交互;
GPU(图形处理单元):负责处理所有图形和视频相关的任务,让你玩游戏和看视频时画面更流畅、更清晰;
ISP(图像信号处理器):处理从手机摄像头捕捉的图像,让拍出来的照片和视频看起来更好,比如调整亮度和颜色。另外还有最基本的通信连接模块等。
这些解释并不是最专业的说法,但是我们能通过这些通俗的解释看出,手机处理器中各个部分分别负责什么任务。
CPU是移动SoC的重要核心之一。当运行游戏、AI等复杂任务时,上图中的关键模组需要协同工作。这时候,CPU就会扮演指挥官或者说是大脑的角色,去指挥任务应该分配到哪里。对于管理系统层面的处理至关重要。它能执行来自应用程序、操作系统和用户输入的指令,确保运行流畅快速。
一般情况下,性能和能效不可兼顾,比如我们日常玩复杂的手机游戏的时候,总会感觉电池的消耗更快。但是在腾讯科技对于骁龙 8 至尊版的实测中,它的功耗相比上一代骁龙 8Gen3 有明显的降低。
首先,Oryon CPU和此前的Adreno GPU、Hexagon NPU、Spectra ISP一样,由高通自主设计。自研CPU会有更充分的自主性和创新空间,就好像从头设计一个最完美的房子,而不是在别人已经盖好的毛坯上改造,后者显然将受到一定限制。
在此基础之上,全部自研的CPU、GPU、NPU可以实现效率更高、更流畅的相互配合。高通技术公司高级副总裁兼手机业务总经理 Christoper Patrick给到这样一个比喻:“我们设计的每个IP都是互补的,可以作为更大的异构计算系统的一部分协同工作。每一个IP都能在正确的时间奏出正确的音符,而正是所有这些IP的组合创造了美妙的交响乐”。
第二,这颗CPU在架构上也进行了巨大的改进:采用8核设计,包括两颗超级内核,主频高达4.32GHz,这是目前手机SoC中最高的主频。适合应对需要更快响应速度的密集型应用。缓存设计更是深度考虑了生成式AI对于手机内存和时延的高要求。从今年的趋势来看,3B左右的端侧模型常驻是旗舰安卓手机的基本盘,按照INT4量化来看,对内存的占用量大概为2GB。同时,用户在使用大模型的时候,反应过慢,也会大大折损体验,这就需要尽可能的低时延。Oryon CPU采用最大的缓存来增强每一个CPU丛集——每个丛集都拥有12MB的二级缓存,总计24MB紧密耦合的专用缓存是移动领域最大的缓存。在每个超级内核和性能内核中,还大幅提升了一级缓存。考虑到生成式AI高度依赖内存,高通还为骁龙8至尊版配备目前最高速的LPDDR5x内存。这些优化,都将有助于提升用户在使用端侧模型时的体验。
“高通Oryon CPU是一个强大的多任务处理单元,负责同时运行多个应用。它还负责启动所有AI工作负载,处理繁重负载任务,让AI引擎的其他组件可以专注于特定的AI任务。”
GPU的部分,骁龙8至尊版采用了新的Adreno切片架构,这颗Adreno GPU拥有1.1GHz的主频,相比上一代的900MHz也提频了。高通官方给出的数据(显示),全新架构的峰值性能提升40%,相同性能下的功耗降低了40%。
另外,这次骁龙峰会也推出了重新设计的AI-ISP,能够与NPU协同工作:高通将ISP吞吐量提高了近35%,能效提升高达25%。这意味着,用户可以利用多达三个4800万像素传感器同时进行拍摄。
有了像骁龙8至尊版这样性能强大的底层硬件支撑,就能打造所谓的端侧AI了吗?
从2023年开始,各大手机厂商包括苹果,都形成了一个共识,生成式AI的爆发,将给手机甚至整个消费电子行业带来巨大的变革。
安卓手机跑得比苹果更快,从2023年的下半年就开始在手机上加载端侧模型,并尝试一些简单的生成式AI功能,比如AI生成文本、图片等。但是,由于品牌众多,每个品牌希望侧重的场景与功能不同,安卓手机的“生成式AI功能”,看起来过于零散。对比整个世界对于生成式AI的巨大关注,这些功能也显得有些单薄。
并非是手机品牌思考不深入,而是因为,手机厂商们也面临着三个困境:1、在2023年,用当时的手机处理器去支撑一个百亿参数左右的端侧模型,还是有些吃力;2、大模型的能力本身有限,如果压缩为一个手机端能跑的更小规模模型,模型的表现就更差强人意;3、单独任意一个安卓手机厂商,都几乎不可能拥有覆盖硬件、软件、大模型训练的全面能力。而这些,都是打造端侧AI优质体验不可或缺的部分。
高通技术公司产品管理高级总监Siddhika Nevrekar在骁龙峰会现场强调,“仅凭硬件无法打造出强大的AI。这就好比一辆赛车,油箱里没有油也无济于事。”
今年,高通发布了骁龙8至尊版移动平台和AI Hub。开发者可以利用AI Hub在骁龙8至尊版上测试新AI模型,并通过高通Device Cloud开发AI体验。高通与多家模型厂商、集成商和runtime专家合作,帮开发者选择和优化适合他们应用和平台的AI模型。开发者只需几行代码,就能轻松集成这些模型到应用程序中。
而早在2022年,高通就已经推出AI软件栈(AI Stack),提供一套全面的AI开发和部署工具;今年推出的AI Hub,提供了一个云端平台,让开发者可以远程在骁龙设备上测试和部署AI模型。AI Stack+AI Hub,高通为开发者准备了基于自家硬件的最高效软件平台。同时,高通也官宣了两个重要的国内大模型合作伙伴:腾讯混元和智谱AI。
腾讯混元大模型基于骁龙8至尊版移动平台,实现了7B和3B版本的端侧部署。智谱AI在GLM4v-mini基础上创建了基于多模态大模型的AI助手,在骁龙峰会现场也有Demo展示,端侧的推理速度达到了将近100 token/s。
图:骁龙峰会现场展示--在搭载有骁龙8至尊版的端侧设备上,智谱GLM 4v-mini,推理速度超过了100token/s
端侧 AI应用应该是
理解用户需求的“智能体”
基于这样的硬件能力,高通的一些OEM合作伙伴,已经开始在手机端侧,尝试打造新的端侧AI应用体验。
用户到底想要端侧AI做什么?
“用户希望端侧AI能够为自己量身定制。因为手机最了解用户的个人情境信息。利用所有的传感器,我们可以结合来自手机的情境数据、位置、偏好和个人习惯创建个性化神经网络,以便AI助手针对用户需求生成个性化回复。”高通技术公司产品管理高级总监Siddhika Nevrekar这样总结。
这和高通总裁兼CEO安蒙的答案很相似——端侧 AI应用应该是理解用户需求的“智能体”。“过去是APP的时代,而未来是智能体的时代。AI智能体也是高通未来会聚焦的重点,AI改变了操作系统,改变了APP生态,未来用户可以选择他们最喜欢的智能体去做事。”
这和几个头部手机厂商的思路不谋而合,比如,荣耀就重点推广了一个用例——用手机AI端侧的助手,通过一个简单的指令,实现从打开APP到按照你的个人偏好点单、下单的整个过程。
“去年来讲大家很多都是在简单的尝试,可能在PC上放一个模型就叫AIPC了。但是我们今天看到两个变化,端侧AI越来越多地跟场景做深度的整合,让它能够贯穿到我们日常使用的这些设备的业务流上,不再只是跟它聊聊天,而是它可以帮助你点的外卖,它能够对你的照片进行处理等等,从需求的角度,从浅水区进入到深水区。另外一个变化是模型的模态变的越来越丰富,视频模型、图片模型、声音模型,都已经走进了端侧。”智谱AI CMO张帆这样总结了从去年到今年,端侧AI的两个变化趋势。
更能理解用户、场景更深入、多模态,这是行业对端侧AI一年的进化趋势达成的共识。
高通也拿出了一些应用场景的用例:比如不仅可以把照片上不想要的“路人甲”擦除掉,还可以将视频中你不需要的任何元素去掉;在搭载着骁龙X Elite的PC中,连接外部的键盘、吉他等音乐设备,直接进行专业级别的音乐创作。有创作者现场介绍,简单一台PC,就能实现之前购买的上万美元的专业音响的效果;无论多么活泼的宠物,AI都能进行面部追踪,并捕捉它的动作。
图:用搭载有骁龙8至尊版的移动设备,瞬间捕捉狗狗的动作
我们生活在一个多终端的世界里。每个人每天面对的不仅仅有手机、车、PC,还有手表、音箱、电视等等。
除了面向手机的骁龙8至尊版移动平台,高通也重点发布了基于车的骁龙座舱至尊版平台(Snapdragon Cockpit Elite) 和Snapdragon Ride至尊版平台(Snap Dragon Ride Elite),同样使用了自研Oryon CPU。
图:在2024骁龙峰会现场,通过XR设备了解骁龙座舱至尊版平台(Snapdragon Cockpit Elite)和Snapdragon Ride至尊版平台(Snapdragon Ride Elite)
这就意味着,这些终端设备,可以采用共通的底层架构,有更好的兼容性,互相之间的互联互通也会更加通畅。
如果这些终端设备,都能根据用户偏好、情境,在终端应用和服务之间无缝连接,提供个性化的服务。那么,我们就可能拥有不止一个智能体,甚至可以在多AI终端设备存在的物理世界内,获得多个“智能体”联动服务的体验。这可能就是智能计算时代的来临吧。
如果要实现这样的效果,需要具备哪些条件?“AI、计算、连接是智能计算变革至关重要的核心技术支柱”,高通技术公司手机、计算和XR事业群总经理阿力克斯·卡图赞(Alex Katouzian)这样总结。
其实,已经有先行者开始去尝试实现这个有些科幻感的图景:
小米集团的「人车家全生态」战略,基于澎湃OS,将个人设备、智能家居和智慧出行整合起来;荣耀尝试通过MagicOS将手机、平板、笔记本电脑等多个终端设备串联起来,打造“超级终端”。这都是跨终端体验的尝试。
在万物互联中,高通作为“AI处理技术的智能计算公司”,能承担什么样的角色?“如果用户的终端能够彼此协同工作,那么可以实现更多功能。在用户的个人偏好、本地情境和终端上的应用与服务功能之间提供便利,带来AI智能体体验。通过将信息作为个人知识图谱保留在终端侧,你的终端可以更易感知、更快响应你的需求。”卡图赞这样解释。
做AI时代的赋能者和协调员,“而这仅仅是个开始”,卡图赞这样强调。