撰文 | 新皮层小组
编辑 | 王杰夫
不再满足于只是让AI协助思考,而给AI更多自主性,让AI真正行动起来,成为本周智能领域的最新动向。
本周初,OpenAI的最大竞对Anthropic推出了一个名为「计算机使用」(computer use)的新功能。顾名思义,这个功能赋予了大语言模型操控用户电脑的能力,用户只要对它发出一条指令,比如「在淘宝上买两袋猫砂」,它就能够通过查看屏幕、移动光标、单击按钮、输入文本等一系列组合行动最终完成下单任务。在这个过程中,大语言模型不再纸上谈兵,而是长出手和眼去落实想法。
事实上,让AI去代替人类执行任务的想法早已有之,早在2016年亚马逊智能音箱Echo就推出了用语音指令购物的功能。当然,如果把目光从个人场景扩展到企业场景,那么让软件模拟人类去执行任务甚至已经是一门数十亿美元的生意,并且有个专业名词RPA(Robotic Process Automation:机器人流程自动化)。其行业大哥UiPath首款RPA产品于2013年推出,该产品通过模拟人工手动操作键鼠,自动处理规则清晰、批量化的高频业务。公司于2021年在纽交所上市,当前市值近70亿美元。
不过这些在大语言模型出现前的产品都有类似的局限,由于当时AI的规划和推理能力不足,因此为了实现整个流程顺利执行,就不得不在其中某些环节放弃AI的灵活性,而用固定代码的方法来实现。例如Echo的语音购物功能最初只支持重复购买你曾经下过单的商品,无法更改配送地址,并且你必须事先开通免密支付等等。
如今,随着新一代AI系统在推理能力上取得巨大提升,让AI代替人类去执行非标准化的任务成为可能。就在Anthropic周初推出「计算机使用」功能后,国内头部AI公司智谱也公布了相似的功能——CogAgent与AutoGLM,前者代替用户操控计算机,后者操控网页和手机。
与这些还在实验室的功能不同,荣耀的工程师们更加激进,它在本周发布的新一代手机系统MagicOS 9.0中加入了一个AI智能体YOYO,可以在收到用户的指令后,调取并操作手机上的各种服务来完成任务。
在科学家的赋权下,AI正在逐渐脱离一个纯粹由概念构成的世界,从操控虚拟的手机和电脑到操控机械的手和脚之间的距离并没有那么远。如果我们将智能汽车看作一个机器人,那么在这条路线上,AI已经在感知、规划并控制着我们的出行工具。本周滴滴智驾宣布了来自广汽的约3亿美元融资,小马智行、文远知行两家公司也即将IPO,地平线港股成功上市。
Key Points
新产品与模型
荣耀发布AI操作系统MagicOS 9.0,可以代你点咖啡;
Anthropic发布新模型和新工具,可以代替用户操作计算机;
智谱公布多款GLM-OS工具,要让AI代你操作手机和电脑;
OpenAI计划于12月发布模型Orion,号称比GPT-4强百倍;
大公司动向
传百度将调整自动驾驶业务:L2与L4业务线或合并;
特斯拉股价暴涨22%,廉价车型计划明年推出;
传字节跳动2024年营收增长放缓,广告与电商都遇到瓶颈;
投融资
AI搜索公司Perplexity计划融资5亿美元,目标估值80亿美元;
OPPO收购AI交互内容公司波形智能;
滴滴自动驾驶完成C轮2.98亿美元融资,加速Robotaxi落地;
自动驾驶公司小马智行赴美IPO,最近三年净亏3亿多美元;
智能驾驶公司地平线港交所上市,股价一度大涨30%;
文远知行重启IPO,共筹资4.4亿美元。
新产品与模型
华为正式发布「纯血鸿蒙」,微信还在适配中
10月22日,华为正式发布鸿蒙星河版(HarmonyOS NEXT)系统,该系统将只能安装为鸿蒙开发的原生应用,不再兼容安卓应用,这一系统也因此被外界称为「纯血鸿蒙」。今年一季度,鸿蒙在中国市场的份额由去年同期的8%上涨至17%,苹果iOS的份额则从20%下降至16%。鸿蒙在中国市场首次超越iOS,成为中国第二大操作系统,鸿蒙在全球范围内的市场份额为4%,为苹果iOS系统和谷歌安卓系统之后第三大移动操作系统。
华为称目前已有超过15000个鸿蒙原生应用和元服务上架,覆盖了大部分中国用户的的常用App,例如支付宝、京东、WPS、飞书等。对于很多用户关心的微信,腾讯于10月8日宣布其鸿蒙原生版已开始内测,此外更多腾讯系App也在适配中。
此次发布会华为还重点介绍了鸿蒙系统级的AI能力,通过调用AI助手「小艺」,可以在系统层面实现圈搜、修图、帮写、帮记等功能。第三方应用也可接入系统级的AI能力,例如在鸿蒙版钉钉中,用户可以和小艺语音了解相关会议日程,还可以用语音操作开启会议。
荣耀发布AI操作系统MagicOS 9.0,可以代你点咖啡
10月23日,荣耀发布了首个搭载AI智能体的个人化AI操作系统MagicOS 9.0,而搭载MagicOS 9.0的Magic7系列手机将于10月30日正式推出。据介绍,MagicOS 9.0系统配备了自研大模型家族,包括语言大模型、图像大模型、语音大模型以及多模态大模型,能够在不同的设备上部署。
在AI交互方面,MagicOS 9.0推出了全新的AI智能体YOYO,为用户提供智能服务。从现场演示来看,用户只需向YOYO发出语音指令「我有些困了,帮我点一杯咖啡」,该智能体就能在理解用户需求之后,自主调取和操作手机的相应资源和服务,帮用户点一杯咖啡外卖。荣耀声称,YOYO智能体可完成600项需求意图理解、950项个人习惯记忆、270项复杂任务规划。
此外,搭载MagicOS 9.0的荣耀手机将能够实现更多AI驱动的功能。用户可以用手指圈选任意界面,基于AI的「任意门」功能即可完成上下文语义理解,从而推荐对应服务。此外,「灵动胶囊」设计允许用户直达AI服务,优化了应用程序的使用流程,目前覆盖了航班、打车、高铁等多种场景。
Anthropic发布新模型和新工具,可以代替用户操作计算机
10月22日,Anthropic宣布推出升级版Claude 3.5 Sonnet和新型号Claude 3.5 Haiku,并推出了一项名为「计算机使用」(computer use)的新功能。
升级版Claude 3.5 Sonnet目前已经面向所有用户开放,升级版的模型在代码方面取得了显著进步。Claude 3.5 Haiku则预计将于本月晚些时候发布,价格维持不变。Anthropic声称,在多次评估中,Claude 3.5 Haiku的性能与此前发布的更大尺寸的模型Claude 3 Opus相当。
在本次更新中,Anthropic还推出了一个基于Claude 3.5 Sonnet的新功能——「计算机使用」,AI可以以人类的方式使用计算机,实现查看屏幕、移动光标、单击按钮和输入文本等功能。目前,该版本仅面向开发人员开放,开发人员可以对它编程,使其以多种方式与计算机协同工作。据介绍,Claude并不是通过特定的工具来完成任务的,而是查看和解读计算机屏幕图像并学习通用的计算机技能,从而使用为人类设计的各种标准工具和软件程序。
据路透社报道,近期Anthropic和Google的合作正因为反垄断问题而受到英国政府的调查。英国竞争与市场管理局 (CMA) 自7月以来一直在审查两者之间的合作,并将12月19日定为第一阶段决定的最后期限,届时将决定是否继续调查。
智谱公布多款GLM-OS工具,要让AI代你操作手机和电脑
或许是受到Anthropic本周初推出的「计算机使用」功能的刺激,智谱在周末一口气公布了多款GLM-OS工具,包括模仿人类控制计算机的CogAgent,以及控制手机和网页的AutoGLM。智谱表示,这些工具都是「智谱构建GLM-OS(以大模型为中心的通用计算系统)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的Plan-Do-Check-Act循环,形成自我反馈和自我提升——恰如人类自己所做的一样」。
CogAgent:这是一个基于Cog系列多模态模型的AI工具,它是一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行自然语言交互(包括打字输入和语音输入)、截图交互和划词交互;
AutoGLM-Web:这是一个基于GLM系列大语言模型的AI工具,它是一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量快速地浏览并总结多个网页,结合历史邮件信息回复邮件。
AutoGLM phone use:这同样是基于GLM系列大语言模型的AI工具,只不过它的操作对象变成了手机。理论上,它可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
OpenAI计划于12月发布模型Orion,号称比GPT-4强百倍
10月25日有消息称,OpenAI的下一个命名为「Orion」(猎户座)的大语言模型将于12月发布。此前,OpenAI的首席执行官Sam Altman在社交平台中曾暗示,他「很高兴看到冬季星座即将升起」,而猎户座是11月到2月夜空中最明显的冬季星座。
据透露,OpenAI内部将Orion视为GPT-4的继任者,但不确定是否会以GPT-5的名义公开。与GPT-4o和o1两款模型不同,这次Orion将不会通过ChatGPT平台公开首发,而是授权给与OpenAI密切合作的公司,以便它们构建自己的产品和功能。据知情人士透露,微软内部的工程师最早于11月就可以在Azure上部署大模型Orion。OpenAI管理层曾表示,Orion是由代号为Strawberry的o1模型提供合成数据来训练的,其功能可能比GPT-4强大100倍。
大公司动态
传百度将调整自动驾驶业务:L2与L4业务线或合并
近期市场流传百度有意对其自动驾驶业务进行调整,或将整合L2与L4团队,并任命百度智能驾驶事业群组首席研发架构师、技术委员会主席王亮为新部门负责人。
百度智驾业务中的L2业务线面向大众消费者,其智驾方案应用于百度与吉利合资建立的「极越」品牌系列产品,该品牌近两月销量均为2000多辆,定价主要位于20万至30万元区间。与此同时,百度的L4业务线的应用场景为Robotaxi,以旗下「萝卜快跑」自动驾驶出租车为代表,搭载的硬件配置更强,目前宣称成本可以降至20万元以下,但还没有产品落地。从配置上看,L2业务采用和特斯拉类似的纯视觉方案,L4业务则装载激光雷达。随着自动驾驶技术发展,原本被视为殊途的这两种技术路线有望实现融合。
特斯拉股价暴涨22%,廉价车型计划明年推出
10月23日,特斯拉发布三季度财报。该季度,特斯拉实现营业收入251.8亿美元,同比增长8%,其中汽车业务营收为200亿美元,同比增长2%;净利润21.7亿美元,同比增长17%,利润大涨的主要原因为汽车交付量的增长以及碳信用额的销售。另外,特斯拉的电动皮卡Cybertruck首次毛利率转正。
在财报电话会议上,马斯克表示,最理想情况下,明年特斯拉汽车的销量可增长20%至30%。特斯拉还会在美国德州和加州推出网约车业务,目前正在等待监管审批。自动驾驶出租车预计将于2026年实现大规模生产,目标是每年至少生产200万台。对于市场一直关注的廉价电动汽车,马斯克称计划明年上半年推出,汽车单价将在3万美元以下。
财报发布后,特斯拉股价暴涨22%,市值飙升到约8300亿美元。创下该股有史以来第二大单日涨幅,这一涨幅仅次于2013年5月9日的24.4%。
传字节跳动2024年营收增长放缓,广告与电商都遇到瓶颈
近日有传言称,字节跳动2024年前三季度营收增速大幅下滑,同时利润率也再次出现下滑,该指标在2022年、2023年CEO梁汝波提出削减教育、游戏、XR等业务的「去肥增瘦」计划后曾短暂回升。
其中晚点给出了具体数字,前三个季度字节中国区单季度广告同比增速从40%左右跌至17%以内,过去两个季度均没有达成既定目标;同时抖音电商的销售额增速已经从年初的超过60%跌至9月的不到20%。这两块都是字节当前最重要的收入来源。
此外,今年字节不断加大对AI投入但该业务距离盈利遥遥无期。有平台估算6月高峰时,豆包仅广告投放就花费了上亿元;并且近几个月不断有其他AI公司高管加入字节的消息,公司在不计成本的组建庞大的AI人才团队。
投融资
AI搜索公司Perplexity计划开展新一轮融资,目标估值提升至80亿美元
10月20日有消息称,AI搜索公司Perplexity计划融资5亿至10亿美元,目标估值在80亿美元甚至更多。
过去一年间,Perplexity公司已经完成了3轮融资,估值也随之攀升。公司最新一轮融资是今年6月。根据彭博社爆料,包括软银旗下愿景基金2期在内,多家投资机构向Perplexity公司投资了2.5亿美元,后者当时的估值增至30亿美元,30亿美元已经是这家公司今年早些时候估值的3倍了。
其中,《金融时报》披露了这家公司的业绩表现。今年7月,用户在Perplexity上的搜索查询量为2.5亿次,2023年全年数据是5亿次。根据最近一个月的销售额推测,Perplexity公司年化收入从今年1月的500万美元增至今年8月的3500万美元。
OPPO收购AI交互内容公司波形智能
10月22日消息称,位于杭州的AI创业公司波形智能已被OPPO收购,包括CEO姜昱辰在内的一众高管已入职OPPO。姜昱辰「即刻平台」个人主页信息证实了这一点。
创始人兼CEO姜昱辰,1998年出生,本科毕业于浙江大学竺可桢学院,博士就读于苏黎世联邦理工大学,曾在微软亚洲研究院从事大语言模型的训练与推理。联合创始人兼COO余腾曾任美国上市公司掌门教育(ZME)联合创始人兼营销高级副总裁,拥有丰富的商业化经验和团队管理经验。CTO周王春澍博士就读于苏黎世联邦理工大学,专注于人工智能方向研究。
波形智能成立于2023年3月,是一家总部位于杭州的AI公司,曾宣称致力于成为「全球第一的人工智能内容平台」,拥有自主研发的中文内容创作垂域大模型「Weaver」,及由其驱动的面向用户的写作类Agent产品「蛙蛙写作」。2024年年初,波形智能完成千万元Pre-A轮融资,由蓝驰创投领投,西湖科创投、老股东藕舫天使跟投。
滴滴自动驾驶完成C轮2.98亿美元融资,加速Robotaxi落地
10月22日,滴滴官方发文称滴滴自动驾驶业务完成C轮2.98亿美元融资,本轮融资由广汽集团领投,滴滴参与。经确认,融资主体是滴滴2019年将自动驾驶团队分拆出来成立的独资公司「滴滴沃芽」。
这并不是滴滴与广汽的首次合作,今年4月,滴滴自动驾驶还与广汽埃安宣布成立合资公司「安滴科技」,双方各持股50%,计划于2025年推出首款量产L4车型,该车型将以混合派单形式接入滴滴出行网络。
自2020年6月在上海推出载人测试服务起,滴滴自动驾驶已在北京、广州和上海示范区域内混合派单,连续安全运营超过1500天。并且在2021年12月,滴滴自动驾驶推出首个自动化Robotaxi运维中心,支持车辆自动回收、充电、清洗、停放等,后升级为滴滴慧桔港。
自动驾驶公司小马智行赴美IPO,最近三年净亏3亿多美元
10月18日,中国L4级自动驾驶公司小马智行向美国证券交易委员会(SEC)递交招股说明书,拟于纳斯达克挂牌上市。招股书显示,2022年、2023年及2024年上半年,小马智行营业收入分别为6839万美元、7190万美元和2472万美元;净亏损分别为1.48亿美元、1.25亿美元和5178万美元。
小马智行成立于2016年,收入来自技术授权、Robotaxi(自动驾驶出租车)服务、Robotruck(自动驾驶卡车)服务三部分。其中Robotaxi业务已在北京、广州、深圳实现全无人驾驶的商业化运营。但目前,被寄予厚望的Robotaxi业绩贡献不高,在2022年、2023年及2024年上半年,营收占比分别为13.1%、10.7%和4.7%。
智能驾驶公司地平线港交所上市,股价一度大涨30%
10月24日,地平线在港股上市,发行价3.99港元,总募资额54.07亿港元,为今年港股最大的科技IPO,上市首日股价一度大涨超30%。
地平线在今年3月递交了招股说明书。地平线成立于2015年,创始人兼CEO余凯曾任百度深度学习研究院IDL常务副院长。地平线的定位是二级供应商,2021年产品开始大规模量产,目前已拿到290款车型定点,是中国市场中前五大高级辅助驾驶和高阶自动驾驶解决方案提供商中唯一的中国企业。
公司过半的收入来自授权业务,其次为产品解决方案。2021年至2023年,公司收入分别为4.67亿元、9.06亿元和15.52亿元,3年累计经营性亏损55亿元,毛利率稳定在70%左右。今年上半年,营业收入为9.35亿元,亏损11.05亿元。
文远知行重启IPO,共筹资4.4亿美元
10月22日,文远知行向美国证券交易委员会更新IPO招股书并启动招股。招股书显示,文远知行将发行650万股美国存托股票(ADS),每股价格在15.5美元至18.5美元之间,预计筹资1.194亿美元。同时,文远知行还计划向特定投资者定向发行价值3.205亿美元的A类普通股,也就是说公司将通过IPO和私募总共筹资约4.4亿美元。
文远知行是今年第二家寻求在美国上市的中国车企,第一家是5月正式登陆纽交所的极氪。7月,文远知行就向美国证券交易委员会提交了IPO招股书,但8月公司曾宣布推迟IPO,因为「更新交易文件目前所花的时间比预期要长」。
-END-