骆轶航:慢推理很多时候是深度推理,基于思维链的深度推理的放在云侧,其他能放到端侧的极限化放到端侧。周围老师刚才讲这个13B的模型占7G内存放到手机,某种程度上来说,端侧模型是手机形态物理极限,推着大家要实现它,大家拼命为它想办法的结果。可是为什么非得是手机?为什么手机是 AI 模型实现最好的形态?而不是其他的设备?当然周总可能会说,我是做手机的,它肯定是最好的形态,我们怎么看待这个问题?周围:我们的创始人沈炜沈总认为,AI是不能创造一个全新品类的。它只能把原来已有的品类做到体验更好,这是我们的长期主义,或者是平常心的坚持。所以我们认为因为手机现在是一个比较大的行业,所以我们先在手机上落地。实际上我们可以看到,像AR、VR、AI Pin这些品类都存在,是因为这些品类,商业化的规模不是太大。所以AI进入影响力小,规模小,但是我相信AR眼镜现在已经很好的在进入,很快看到繁荣了。骆轶航:vivo也不仅仅是家手机公司。大海老师怎么看?为什么手机是最合适的AI场景?李大海:从抽象角度看,手机拥有最丰富的数据,因此AI在手机上能发挥最大价值。在与做AI硬件创业的朋友交流时,他们必须回答一个问题:为什么这个AI硬件功能不能在手机上实现?这说明手机天然具有很强的竞争力。周围:手机是开放的生态,我们无意取代任何行业,只是在做连接和平衡。我们认为,未来具备大模型支持的手机,在能力分发和行业分发方面,与传统智能手机的商业模式并无本质差异。骆轶航:会有进一步的演进吧?周围:无非是从原来的应用程序、应用商店,转向智能体分发。骆轶航:这个话题很值得深入讨论。李大海:我想澄清一下刚才的观点。从新硬件角度看,关键是要判断新智能硬件是否有存在必要,还是其提供的价值手机都能实现。如果手机能实现,这个智能硬件就难以在商业上立足。手机确实有大量场景和数据,AI必然能在其上发挥更大的杠杆作用。当然,我们也看到AR眼镜和AI Pin这类产品在弥补手机的不足,因为手机通常需要用户主动交互才能获取信息。比如我们聊天时,手机并不能、也不应该监听内容。这些新设备可以作为手机之外的重要数据来源。当这些强输入设备的数据与手机数据结合,手机仍然能发挥强大的枢纽作用。所以我认为手机地位非常重要。骆轶航:它在连接场景、连接数据、归集数据方面是很好的枢纽。李大海:对!骆轶航:手机是个很特别的设备,这个尺寸拿在手里很方便,可以进行多种操作,重量适中,有足够的内存和算力,能实现很多存储场景和其他功能。李大海:我们开玩笑说,手机已经成为现代人的"器官"。你刚才提到的接入成本是个很好的说法,手机与人的结合成本很低。相比之下,脑机接口、AR眼镜等新方案的使用门槛都很高。这种低接入成本是AI难以取代的价值。骆轶航:我玩过各种AR眼镜,那些设备接入体验很酷,场景也很有趣。我现在用的手机是Pixel 9 Pro,它能一键唤醒Gemini,Gemini可以全局操作数据,能帮我查找特定内容,操作深度很强。我发现如果模型和手机都足够好用,结合起来效果特别棒,这给了我很大启发。李大海:因为Gemini和Pixel是Google的官方手机,它利用系统能力实现了Gemini和Pixel的双向集成。
为什么手机上的APP会演化成个人智能体?
骆轶航:这样看,vivo也是双向集成。一个模型,通过类似OriginOS这样的系统,与设备融合也是可行的。说到手机体验的改变,我们来具体分析一下周围总之前提到的观点。过去手机系统主要做应用分发,一个手机装几十个APP,系统要能调用更多功能。而现在像vivo的“蓝心小V”,以及Google的Gemini,它们在手机上调取APP的能力很强。未来这种调取,会从调取APP转向调取个人智能体。我看到有人持不同观点,认为未来手机上不会有那么多APP,刚才和王丛总私下交流时也谈到这点。随着AI的深入发展,您觉得人们对手机的使用体验会有哪些变化?我们还是很重视图形交互界面(GUI),但这种形态可能会如何演变?周围:手机是人与数字世界的连接桥梁,我们通过手机使用各种服务和功能,包括听、说、看、触、拍、扫、感知等。随着大模型的引入,必然会出现极致的体验提升。比如今年vivo发布的手机已能理解苗语、粤语等少数民族语言和方言,还能识别情绪并做出回应。就像从电阻式到电容式触摸屏的变革带来了更自然直观的交互体验一样,大模型也带来了革命性变化。现在手机不只是点击滑动,还能实现流畅的查按拖拽和圈选等操作,这背后都有大模型的支持。在意图识别方面,比如当用户圈选一个地址时,系统会立即判断用户是想保存、导航还是分享。我们vivo手机的智能岛会相应推出地图、便签、好友等功能。我们并没有取代生态,而是更好地整合了微信、地图、便签等应用。简言之,过去是人找服务,现在是服务主动呈现。更进一步的是主动决策,比如系统发现你喜欢川菜,会主动询问是否需要订餐。这是我们2024年的基础建设工作,到2025、2026年,我们会不断完善这些场景和应用,提升用户体验。骆轶航:也就是说,多模态能力和模型能力会推动更多手势和操作的识别,不只是触屏交互,而是识别动作意图并推荐相应服务,实现自主规划。周围:对。智能体的出现,比如百度高德、腾讯音乐推出的智能体,我们作为手机连接中心,推出智能体广场,让各种智能体在这里与用户高效匹配。骆轶航:同时也是管理中心。李大海:也是连接中心和分发中心。周围:作为手机厂商,我们要做基础建设工作,要为百度地图、高德地图等数据的接入制定行业公共标准。骆轶航:那么“智能体广场”是什么?是不是就是智能体的应用商店?它有什么接口标准?什么是智能体?什么是符合标准的智能体?我们是否在推动与国家相关研究机构和官方建立这样的标准?友商在做什么?周围:我来解释一下,我们今年发布了vivo关于智能体的白皮书。但我们不是要独自构建生态,而是要共建。下个月,我们会讨论各家方案,确定手机行业标准,然后与互联网厂商对接,最后上升到工信部、信通院等行业标准。李大海:我们也可以参与这个项目。去年面壁智能就获得了行业认可,被认为是最懂Agent的大模型公司。骆轶航:年初发布会时,以为你们在Agent方面有动作,结果出来的是小模型。李大海:我们今年发表的一篇论文在硅谷引起很大反响,主要讨论未来Agent之间如何通信和协同。从技术角度看,未来每个APP厂商都会很快提供自己的智能体(Agent)。关键是靠近用户的Agent如何利用这些Agent组合,创造全新的个性化服务。这种Agent间的协同将非常重要。最近我们看到有厂商在做GUI Agent,模拟用户点击,但从长远来看,原生Agent与其他Agent协同服务用户是更好的形态。这必然会带来手机厂商和应用提供商商业模式的变化,这是个很有趣的问题。骆轶航:我们看到硅谷很多公司都在做不同领域的Agent,都强调Agent间协同。但Agent协同之上的框架应该遵循什么标准,在什么场景实现?比如法律和财会两个Agent理论上都服务于一个公司,应该协同,但可能需要一个平台或智能体广场来实现。李大海:需要有发现机制和统一协议。骆轶航:就像过去的通信协议标准一样,该遵循的标准还是要遵循。周围:vivo提出了解决方案,只是抛砖引玉。我们希望芯片厂商、大模型厂商、手机厂商、互联网应用和服务供应商能携手合作,共同完善这个解决方案。骆轶航:共同建设这样的生态。李大海:书同文,车同轨才能建立统一大市场,市场才能繁荣。骆轶航:统一大市场最重要的就是书同文,车同轨。全球这么多通信协议标准的建立都是有意义的,这方面还可以做更多事情。今天最重要的是讨论了端侧模型与智能手机的结合能创造哪些场景、应用,以及新的通信协议和标准,如何推动我们进入个人智能体连接的新阶段。现在你们理解我为什么蓄谋已久这个环节了,一个从手机层面,一个从模型层面,都在智能体方面做有趣的探索,这是很好的组合。这个环节就到这里,希望产业间能保持互动和协作,AI for Real。谢谢周总,谢谢大海!点个“在看”,再走吧