独家丨元戎启行与高通合作开发智驾方案;月之暗面招募微软亚研院谭旭,研发类 GPT- 4o 的端到端语音模型

汽车   2024-10-22 22:47   北京  


本期关注公司:高通、元戎启行、月之暗面。



元戎启行与高通达成合作,开发智能驾驶方案



我们获悉,智能驾驶研发商元戎启行已经与芯片巨头高通达成合作。


元戎启行或基于高通骁龙 8650 芯片开发智能驾驶方案。高通 8650 芯片的算力可达 100TOPS,适用于中高阶智能驾驶方案开发。对于上述信息,元戎启行不予置评。


此前,元戎启行主要使用英伟达的智能驾驶芯片。例如,元戎启行已经量产的端到端方案,使用的智驾芯片是英伟达 Orin-X,单颗算力可达 254TOPS。今年 3 月,元戎启行还宣布,将于 2025 年采用英伟达 Thor 芯片适配其端到端模型,届时将成为业内首批使用 Thor 芯片的企业之一。


元戎启行与高通达成合作,可降低智能驾驶解决方案成本,从而拓展更多客户。


当前,元戎启行智驾方案官宣的量产车型数量低于行业内的头部厂商。2024 年,预计有 20 多款搭载大疆车载智驾系统的车型上市。Momenta 的智驾软件已经跟随上汽、比亚迪、广汽等车企的汽车跑在路上,接下来,还有包括通用、丰田、奔驰在内的十多个品牌的数十款车型将搭载 Momenta 的智驾软件。


这两家厂商都已经与高通达成合作。大疆车载(现已更名为 “卓驭”)此前称,其核心产品 “成行平台” 可兼容多种芯片并充分利用算力,以降低车企部署智驾方案的门槛。Momenta 的智驾方案也可以同时适配英伟达、高通两家的芯片。Momenta CEO 曹旭东曾告诉我们,他们选择高通芯片的理由主要有两点:价格更低,可以搭载到更便宜的车上;功耗更低,可以上油车,也更适合混动车型。


元戎启行成立于 2019 年 2 月。初期,元戎启行专注于做 L4 级自动驾驶。但在 2020 年,元戎启行决定不再研发 L4 方案,2023 年初,元戎启行将主要资源转向量产智能辅助驾驶 “端到端” 模型的研发,并在当年 8 月完成道路测试。今年一季度,元戎启行成为继毫末智行之后,长城的第二家外部智驾供应商。


智驾方案商目前还未形成商业闭环。在与智驾供应商开展技术和商业谈判时,车企依然处于强势地位。


一位资深自动驾驶从业者告诉我们,即便是技术实力排名中国市场前三的智驾方案商,现阶段承接的几乎所有量产项目也都是不赚钱的。一家智驾供应商为国内一家头部车企提供的城市高阶智驾方案,单车 License 收费仅为 500 元。


在这种情况下,如果仅与中国车企达成合作,智驾方案商很难赚到钱,因此必须得开拓外资车企客户。一位智能驾驶行业人士称,英伟达在中国和欧洲的势头强劲,已经拿下大多数车企客户,所以高通作为后发厂商,在智驾领域采取的市场拓展策略是:重点进攻日系和韩系车企,并在商务政策方面给出一定倾斜。这种做法已经起到明显效果,日韩车企目前均倾向于采用高通智驾芯片。


在元戎启行之前,Momenta、毫末智行、大疆车载三家厂商都在基于高通骁龙 Ride 系列芯片开发智驾方案。其中,Momenta 与丰田达成了合作,毫末智行与现代达成了合作。


对于智驾方案商来说,他们当然希望其开发的方案可以在不同主流芯片厂商的芯片上运行,无论是英伟达、高通还是地平线。


英伟达已在高阶智驾市场几乎形成垄断,目前英伟达 Orin-X 芯片的价格约为 300 美元 / 颗,远高于地平线、高通等厂商的产品价格。从理论上来说,英伟达提供的是通用智驾芯片,本来应该成为全行业的基础设施,价格很便宜才是,但实际情况恰好相反。


英伟达当前享受的超额利润,给高通等其他虎视眈眈的智驾芯片商留出了机会。(文丨赵宇 编辑丨卢洁萍)



微软亚研院前首席研究经理谭旭加入月之暗面,研发类似 GPT- 4o 的端到端语音模型



我们获悉,微软亚研院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。


语音之外,据了解,月之暗面的整个多模态研究在 2023 年 10 月就开始了。在受市场关注的视频生成大模型上,接近月之暗面的人士称,月之暗面目前有十人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。


今年更早时,月之暗面创始人杨植麟曾告诉我们,基础大(语言)模型和多模态是两个东西,前者是通用理解力的提升,后者是扩充更多交互方式。目前这个阶段,提升智能能力会更重要。但有可能两个同时做。


据谭旭个人主页,他在离开微软研究院前担任首席研究经理,方向是生成式人工智能、语音 / 音频 / 视频内容生成,论文引用量达上万次,他也曾担任 NeurIPS 等学术会议期刊的审稿人;其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。


谭旭加入后,主要目标之一是可能是帮月之暗面打造类似 GPT-4o 的语音体验。今年 5 月,OpenAI 发布多模态大模型 GPT-4o,其语音交互效果大幅提升:延时更低、可随时打断,这些变化就来自端到端语音技术。


在这之前,主流的语音对话方案是 “ASR(自动语音识别)+LLM(大语言模型)+TTS(语音合成)”,也就是在输入端先识别语音、转化成文本;再由大模型处理内容,生成新文本;然后合成为语音、最终输出。这一方案下,机器响应时间较长,且人无法随时打断机器讲话,只能你一段、我一段地讲,和人与人的自然聊天状态有差距。


而端到端语音技术则能直接输入语音,经过一个模型处理后,再输出语音,省去了 “语音转文字再转语音” 的中间过程,这能压缩机器响应时间,也能让人随时打断机器,实现更自然的交互;它同时能帮助改善大模型的幻觉问题——当用户发现大模型的回答完全不搭边时,可以马上打断,给新的提示词。


发布 GPT-4o 时,OpenAI 称几周内就会上线其语音和视频功能,但此后多次推迟;直到 9 月 25 日,OpenAI 终于向所有 ChatGPT Plus 付费用户推送了端到端技术支持的高级语音功能(advanced voice mode)。更早之前,OpenAI 也曾放出一段视频:显示高级语音模式下,ChatGPT 会突然模仿用户音色说话,并称安全问题是他们推迟大规模上高级语音功能的原因之一。这侧面说明,端到端语音技术虽被视为重要探索方向,但目前还在实际应用的早期阶段。(文丨王与桐 编辑丨程曼祺)


题图来源:《商海通牒》


- FIN -




晚点Auto
从制造到创造,从不可能到可能。《晚点LatePost》旗下汽车品牌。
 最新文章