速递|马斯克:未来每个人都会有一台人形机器人,明年顺利特斯拉将量产 10 万台 Optimus,AI 模型训练数据已经耗尽

科技   2025-01-10 10:32   浙江  

1 9 日,马斯克在旗下社交平台 X 上与全球营销服务公司 Stagwell 董事长&CEO Mark Penn 展开了一次对谈。
马斯克提到,DOGE(政府效率部)将努力削减 2 万亿美元的联邦支出,但他表示他们可能无法实现这一目标,此外他们的对话还涉及 AI 进展、火星殖民和人形机器人等一系列话题。
关于人形机器人,马斯克表示,未来,几乎每个人都会拥有一台甚至更多的人形机器人。如果 Optimus 今年一切进展顺利,2026 年产量将增加 10 倍到 5~10 万台,2027 年 Optimus 产量将再增加 10 倍。
关于 AI 进展,马斯克表示:“我们现在已经基本耗尽了人类知识的累计总和……在 AI 训练中......实际上,这种情况去年就已经发生了”。

马斯克与其他 AI 专家一致认为,用于训练 AI 模型的真实世界数据已经所剩无几,这个观点也呼应了 OpenAI 前首席科学家 Ilya Sutskever 在去年 12 月举行的机器学习大会 NeurIPS 上提出的观点。

 Ilya 当时指出,AI 行业已达到所谓的“数据峰值”,他预测数据不足将迫使行业转向新的模型开发方式。马斯克认为,合成数据——即由 AI 模型自行生成的数据——将是未来的发展方向。

他还说:“补充真实世界数据的唯一方法是通过合成数据,让 AI 自己创建(训练数据),通过合成数据…… AI 将以某种方式自我评分,并通过这个自我学习的过程。

据 Gartner 估计,到 2024 年,用于 AI 和分析项目的数据中有 60% 将是合成生成的,包括微软、Meta、OpenAI 和 Anthropic 在内的一些科技巨头,已经开始使用合成数据来训练其旗舰 AI 模型。

微软的 Phi-4 模型在周三早些时候开源,训练过程中结合了合成数据和真实世界数据,谷歌的 Gemma 模型也采用了类似方法。

此外,Anthropic 使用了一些合成数据开发了其性能最强的系统之一 Claude 3.5 Sonnet,而 Meta 则利用 AI 生成数据对其最新的 Llama 系列模型进行了微调。

使用合成数据进行训练还有其他优势,例如成本节省。AI 初创公司 Writer 曾提到,其几乎完全基于合成数据开发的 Palmyra X 004 模型研发成本仅为 70 万美元,而一个规模相当的 OpenAI 模型研发成本估计约为 460 万美元。

但合成数据也存在一些缺点。一些研究表明,合成数据可能导致模型“崩塌”,即模型输出的“创造性”降低,偏见增加,从而严重影响功能性。

由于模型本身生成合成数据,如果用于训练这些模型的数据存在偏见和局限性,其输出结果也会受到类似影响。

与此同时,黑石集团也在近日向一家 AI 数据存储解决方案公司 DNN 投资了 3 亿美元,估值达到 50 亿美元,其产品主要用于大规模的 AI 基础设施,包括马斯克旗下 xAI 正在打造的超级计算机 Colossus 也是 DNN 的客户之一。

DNN 最初管理数据是为了帮助政府机构和研究组织进行计算,包括药物开发和美国国家航空航天局任务的复杂模拟,随着越来越多的公司寻求使用 AI,其客户群也发生了变化。

DDN CEO Alex Bouzari 表示,DDN 的平台可帮助企业提高 AI 的成本效益,DDN 还计划利用黑石的投资大幅扩大其商业客户群。

黑石此前投资了多个支持 AI 生态的项目,例如数据中心运营商(QTS、AirTrunk)和 AI 芯片企业(CoreWeave),投资 DDN 是对其 AI 投资组合的战略性补充。

✦ 精选内容 ✦

美国国家经济研究局:AI 普及是 PC/互联网同期 2 倍!将深刻改变劳动市场和生产力

a16z 合伙人预计,继续推动下一代模型,需要每个阶段增加 10 倍计算资源、10 倍电力和 10 倍数据

新出炉的 200+页 AI 现状报告都说了什么?AI First 初创公司营收增速比传统 SaaS 公司要快两倍!
5 个硅谷最新 AI 共识:未来将是多模型共存局面,单一 AI 模型不再占据主导地位,杀手级应用已悄然出现......






有新Newin
无限向新力。
 最新文章