在生成式 AI 方面,Apple 的努力似乎主要集中在移动设备上,即在 iPhone 的最新操作系统 iOS 18 上运行的 Apple Intelligence。
但事实证明,新的 Apple M4 计算机芯片(在 2024 年 10 月底宣布的新款 Mac Mini 和 Macbook Pro 机型中提供)是运行迄今为止发布的最强大的开源基金会大型语言模型 (LLM) 的出色硬件,包括 Meta 的 Llama-3.1 405B、Nvidia 的 Nemotron 70B 和 Qwen 2.5 Coder-32B。
事实上,Exo Labs 的联合创始人 Alex Cheema 已经做到了,Exo Labs 是一家成立于 2024 年 3 月的初创公司,旨在通过开源多设备计算集群(用他的话来说)“使 AI 的访问民主化”。
正如他最近在社交网络 X 上分享的那样,总部位于迪拜的 Cheema 将四台 Mac Mini M4 设备(零售价为 599.00 美元)和一台 Macbook Pro M4 Max(零售价为 1,599.00 美元)与 Exo 的开源软件连接起来,以运行阿里巴巴软件开发人员优化的 LLM Qwen 2.5 Coder-32B。
毕竟,Cheema 集群的总零售成本约为 5,000 美元,它仍然比单个令人垂涎的 NVidia H100 GPU(零售价 25,000 美元至 30,000 美元)便宜得多。
在本地计算集群而不是 Web 上运行 AI 的价值
虽然许多 AI 消费者习惯于访问 OpenAI 的 ChatGPT 等网站或连接到网络的移动应用程序,但在用户或企业控制和拥有的设备上本地运行 AI 模型具有难以置信的成本、隐私、安全性和行为优势——没有网络连接。
Cheema 表示,Exo Labs 仍在努力构建其企业级软件产品,但他知道有几家公司已经在使用 Exo 软件运行用于 AI 推理的本地计算集群,并相信它将在未来几年从个人扩展到企业。目前,任何有编码经验的人都可以通过访问 Exo 的 Github 存储库 (repo) 并自己下载软件来开始使用。
“今天的 AI 完成方式涉及训练这些需要巨大计算能力的超大型模型,”Cheema 在今天早些时候的视频电话采访中向 VentureBeat 解释道。“您拥有价值数百亿美元的 GPU 集群,所有集群都连接在一个具有高互连性的数据中心中,运行为期六个月的培训课程。训练大型 AI 模型是高度集中的,仅限于少数能够负担得起所需计算规模的公司。即使在训练之后,有效地运行这些模型也是另一个集中式过程。
相比之下,Exo 希望允许“人们拥有自己的模型并控制他们正在做的事情。如果模型仅在大型数据中心的服务器上运行,那么您就会失去透明度和对所发生的事情的控制。
事实上,举个例子,他指出,他将自己的直接和私人消息输入到当地的 LLM 中,以便能够向它询问有关这些对话的问题,而不必担心它们会泄露到公开的网络上。
“就我个人而言,我想在自己的消息中使用 AI 来做一些事情,比如问'我今天有什么紧急消息吗?'这不是我想发送给 GPT 这样的服务的东西,“他指出。
利用 M4 的速度和低功耗来发挥 AI 的优势
Exo 最近的成功要归功于 Apple 的 M4 芯片——有常规、Pro 和 Max 型号可供选择,提供 Apple 所谓的“世界上最快的 GPU 内核”和单线程任务的最佳性能(在单个 CPU 内核上运行的任务,而 M4 系列有 10 个或更多)。
基于 M4 规格早些时候被取笑和泄露的事实,以及 iPad 中已经提供的版本,Cheema 相信 M4 可以很好地满足他的目的。
“我已经知道,'我们将能够运行这些模型,'”Cheema 告诉 VentureBeat。
事实上,根据 X 上分享的数据,Exo Labs 的 Mac Mini M4 集群以每秒 2.5 个令牌的速度运行 Qwen 32B,以每秒 70 个令牌的速度运行 Nemotron-8B。(令牌是字母、单词和数字字符串的数字表示形式,这是 AI 的母语。
Exo 使用早期的 Mac 硬件也取得了成功,连接了两台 Macbook Pro M3 计算机,以超过 5 tok/秒的速度运行 Llama 3.1-405B 型号。
此演示展示了如何在不依赖云基础设施的情况下高效处理 AI 训练和推理工作负载,使 AI 更易于隐私和注重成本的消费者和企业使用。对于在高度监管行业中工作的企业,甚至是那些只关心成本但仍然希望利用最强大的 AI 模型的企业,Exo Labs 的演示展示了一条可行的前进道路。
对于对实验有高度容忍度的企业,Exo 提供定制服务,包括在 Mac 设备上安装和运输其软件。预计明年将提供完整的企业产品。
Exo Labs 的起源:试图在没有 Nvidia GPU 的情况下加速 AI 工作负载
Cheema 毕业于牛津大学物理学专业,之前曾在 web3 和加密公司从事分布式系统工程工作,在发现自己被自己计算机上机器学习研究进展缓慢所阻碍后,他于 2024 年 3 月创立了 Exo Labs。
“最初,它只是出于好奇,”Cheema 告诉 VentureBeat。“我当时在做一些机器学习研究,我想加快我的研究速度。在我的旧 MacBook 上运行东西需要很长时间,所以我想,'好吧,我还有其他一些设备。也许是这里几个朋友的旧设备......我有什么办法可以使用他们的设备吗?理想情况下,它不需要花一天时间来运行这个东西,而是需要几个小时。因此,这变成了一个更通用的系统,允许您将任何 AI 工作负载分配到多台机器上。通常,你基本上只会在一台设备上运行一些东西,但如果你想提高速度,每秒从你的模型提供更多的令牌,或者你想加快你的训练运行,那么你真正需要做的唯一选择就是使用更多的设备。
然而,即使他从朋友那里收集了他身边的必要设备,Cheema 还是发现了另一个问题:带宽。
“问题在于,现在设备之间的通信真的很慢,”他向 VentureBeat 解释说。“所以那里有很多困难的技术问题,它们与我过去研究的那种分布式系统问题非常相似。”
因此,他和他的联合创始人 Mohamed “Mo” Baioumy 开发了一种新的软件工具 Exo,它可以为那些缺乏 Nvidia GPU 的人在多个设备上分配 AI 工作负载,并最终于 7 月通过 GNU 通用公共许可证在 Github 上开源,其中包括商业或付费使用,只要用户保留并提供源代码的副本。
从那时起,Exo 在 Github 上的受欢迎程度稳步攀升,该公司从私人投资者那里筹集了一笔未披露的资金。
指导新一波本地 AI 创新者的基准
为了进一步支持采用,Exo Labs 正准备在下周推出一个免费的基准测试网站。
该网站将提供硬件设置的详细比较,包括单设备和多设备配置,使用户能够根据自己的需求和预算确定运行 LLM 的最佳解决方案。
Cheema 强调了真实世界基准的重要性,指出理论估计经常歪曲实际能力。
“我们的目标是通过展示任何人都可以复制的经过测试的设置来提供清晰度并鼓励创新,”他补充道。
关注+星标“硅基LIFE”,每日获取关于人工智能、芯片领域最新动态。 加微信fusion9000,进“硅基LIFE”粉丝交流群交流并接收实时滚动推送的最新信息