这周计算机领域最热闹的事情莫过于 Llama 3 开源,还有小札关于 Meta 大模型的长篇访谈。
从中摘几个感兴趣的要点:
• 这一次发布的是 Llama 3 的 80 亿和 700 亿参数版本,据说 80 亿参数的版本评测结果碾压 Gemma-7B、Mistral-7B 版本;而 Llama 3 的 700 亿参数版本评测结果同样也在诸多成绩上超过了 Gemini 1.5 Pro 和 Claude 3 Sonnet。从某种程度上来说,开源世界也有了堪比闭源大模型的工具了。
• 而 Meta 还有一个没开源的有着更大参数的版本,据说更牛逼,直接对标了 GPT-4和Claude 3。
• Llama 3 是基于超过 15T token 训练,相当于 Llama 2 数据集的 7 倍还多。
• 可惜 Llama 3 只支持 8K 长文本,再就是只有 5% 为非英文数据。
• 登录了 meta.ai 去看了下,Llama 3 暂时还不支持中文,这块的话,国内应该会马上跟进中文版本的 Llama 3了。
这是关于 Llama 3 本身的信息,说下我的一些想法。
• 这次的 Llama 3 使用了超过 15T token 的数据训练,而且根据小札的访谈,其中还有不少是合成数据。是不是意味着,这么多年互联网世界沉淀下来的数据已经不够用了呢?如果想再学 OpenAI 大力出奇迹,可能就需要将那 5% 的非英文数据变成10%,甚至更多的非英文数据。
• Llama 3 在 24000+ GPU 集群上训练的,而在小札的访谈中,也提到了 GPU 的数量只是一个资本问题,而能源限制是更重要的,不是用资本能解决的问题。除了小札说的“还没有人建造过千兆瓦的单一训练集群”,还有更现实的问题,美国的电网不足以支撑更多数量的 GPU 集群。从这个方面来讲,能源锁死了美国 AI 发展的上限。
在社交媒体X上,开源社区OpenPipe创始人Kyle Corbitt分享了他和微软工程师的对话,他们提到了Open AI在训练GPT-6期间,GPU在不同州之间面临的传输困境。“我们不可能在一个州投放超过10万个H100芯片,同时还不破坏电网。”一张H100的最大功耗为700瓦,根据微软工程师的测算,以年利用率61%来算,10万张H100的耗电量将高达42兆瓦时。