马斯克和苹果还没有颠覆到OpenAI这个公司,但本周他们不经意的“联手”重新定义了大家对“Open AI”该有怎样的期待值。
在过去的一年中,全球额人工智能AI生态包括大小公司、研究者、从业者、创业者和投资人一直在努力应对两个关键决定:
1)是否开源先进的大模型?
2)是否披露大模型里的关键架构设计和训练数据选择?
只是在一周前谁能想象马斯克和苹果会让这些决定看起来很容易呢?
1)Grok(3/17)
马斯克开源的 Grok 今天下午刚刚发布。它拥有一个3140亿参数的大模型,采用了专家混合(MOE)架构。每次同时激活2个专家,即使只有86B的激活参数也超过了 Meta 的 #LLaMA2 的70B模型。
推特上的玩笑是谁能负担得起运行它。Meta 已经卖断了市场上所有的 H100。不过刚才Perplexity CEO Aravind Srinivas 已经承诺从Grok 的基础模型开始对其进行对话式搜索和推理的Fine Tuning。很期待哈。
2)苹果的多模态大模型论文MM1(3/14)
为了让大家理解“MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training”这篇多模态模型论文的意义,我来引用一下Nvidia 研究员Jim Fan的话:“MM1 是一宝库,其中讨论了许多架构设计,甚至披露了他们是如何在 GPT-4V 生成的数据上进行训练的。他们提供了精确的缩放定律系数(到4个有效数字)、MOE 设置,甚至最优的学习率函数。”
今天下午正好有时间阅读了这篇由 B. McKinzie 等撰写的论文,它确实有不少有趣的细节。例如,对一直好奇预训练数据是否使用图像和标注数据,图像与文本数据的比例又该如何?苹果这篇论文提供了许多大模型论文一直含糊其辞的细节:“我们看到,采用caption/interleaved/text比例为5:5:1,我们在保持可比较的纯文本理解性能的同时,实现了强大的多模态性能平衡。使用image-caption, interleaved image-text, and text-only数据进行大规模多模态预训练对于在多个基准测试中实现最新成果的几次试验结果来说至关重要,相比之下,其他已发表的预训练结果则不然。”
特斯拉的马斯克和苹果的库克已经向世界展示了,“开放”不仅可以是公司名称中的一个词(如 OpenAI用了Open),也不仅可以是像脸书和谷歌那样公开模型权重,其实更可以让人们深入理解模型背后的设计。
至于马斯克和苹果是否站在历史的正确一边,这仍然是硅谷目前激烈讨论的话题。坦率地说,在我的记忆里硅谷各类斗争中还不曾有如此两极对立。我们这里唯一能达成共识的是两位大佬已经完全重新定义了“Open AI”。