首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

GPU经济学：如何在“不破产”的情况下训练AI模型

财富 2024-08-20 15:53 北京

//

使用激活检查点和多GPU训练等技术，小型企业同样能够有效地训练大型语言模型。

许多公司寄希望于人工智能（AI）能够彻底革新他们的业务，但这些希望往往会因为训练复杂AI系统的高昂成本而迅速破灭。

埃隆·马斯克（Elon Musk）曾指出，工程问题通常是进展停滞的原因。这一点在优化硬件（如GPU）以高效处理训练和微调大型语言模型所需的巨大计算量时尤为明显。

虽然大型科技巨头可以承受数百万甚至数十亿美元的培训和优化成本，但对于那些资金有限、发展时间紧迫的小型和中型企业以及初创公司来说，往往只能望而却步。

在本文中，我们将探讨一些策略，帮助那些资源有限的开发者在不破产的情况下完成AI模型的训练。

1

一不做，二不休

正如你所了解的那样，创建和推出一款人工智能产品，无论是基础模型/大型语言模型（LLM）还是经过微调的下游应用程序，都严重依赖于专门的AI芯片，尤其是GPU。

这些GPU不仅价格昂贵，而且难以获得，以至于SemiAnalysis在机器学习（ML）社区中创造了“GPU富裕”和“GPU贫困”这两个术语。

训练大型语言模型的高昂成本主要来自硬件的费用，包括购买和维护，而不是机器学习算法或专家知识。

训练这些模型需要在强大的计算集群上进行大量运算，且模型越大，训练时间越长。

例如，训练LLaMA 2 70B模型涉及将700亿个参数暴露于2万亿个标记上，需要至少10的24次方浮点运算。如果你属于“GPU贫困”群体，是否就该放弃呢？答案是否定的。

2

替代策略

如今，许多科技公司正在寻找替代方案，以减少对昂贵硬件的依赖，从而节省成本。

其中一种策略是调整和优化训练硬件。虽然这一途径仍然处于实验阶段，并且需要大量投资，但它在未来优化大型语言模型训练方面展现出了潜力。

这类硬件相关的解决方案包括微软和Meta推出的定制AI芯片，Nvidia和OpenAI的新半导体项目，百度的单一计算集群，Vast提供的GPU租赁服务，以及Etched公司推出的Sohu芯片等。

尽管这是推动进步的重要一步，但这种方法更适合那些能够在现在投入大量资金，以期未来降低成本的大型公司。对于那些希望在当下创建AI产品，却财力有限的新兴公司来说，这并不是一个可行的选择。

3

应对之策：创新软件

在预算有限的情况下，还有另一种优化大型语言模型训练并降低成本的方法通过创新软件。

这种方法更经济，并且对于大多数机器学习工程师来说更加容易上手，无论他们是经验丰富的专业人士，还是希望进入这一领域的AI爱好者和软件开发人员。让我们来详细探讨一些基于代码的优化工具。

4

混合精度训练

什么是混合精度训练：想象一下，你的公司有20名员工，却租用了足够容纳200人的办公空间，显然这是一种资源浪费。在模型训练过程中也会发生类似的低效情况，机器学习框架往往分配了比实际需要更多的内存。混合精度训练通过优化这一过程，提高了速度和内存使用效率。

工作原理：混合精度训练结合了较低精度的b/float16操作和标准的float32操作，从而减少了任意时刻的计算量。对于非工程师来说，这听起来可能有些复杂，但它的核心意义在于：AI模型可以在不降低精度的前提下，更快地处理数据并减少内存需求。

改进效果：这种技术可以使GPU的运行速度提高多达6倍，TPU（谷歌的张量处理单元）的速度提高2-3倍。像Nvidia的APEX和Meta AI的PyTorch这样的开源框架支持混合精度训练，使得这种技术易于集成到现有的流程中。通过实施这种方法，企业可以在保持模型性能的同时，大幅减少GPU成本。

激活检查点

什么是激活检查点：如果你受到内存限制的困扰，但同时愿意多花点时间，激活检查点可能是你需要的技术。简而言之，它通过将计算保持在最低限度，大幅降低内存消耗，从而使得在不升级硬件的情况下进行大型语言模型训练成为可能。

工作原理：激活检查点的核心思想是在模型训练过程中，仅存储一部分必要的值，其他部分仅在需要时才重新计算。这意味着系统不会将所有中间数据保存在内存中，而是只保留至关重要的部分，从而释放内存空间。这类似于“到桥头自然直”的原则，意思是在问题迫在眉睫之前不去过度关心。

改进效果：在大多数情况下，激活检查点可以减少多达70%的内存使用，尽管它也会将训练时间延长大约15-25%。这种公平的权衡意味着企业可以在现有硬件上训练大型AI模型，而无需额外投入资金到基础设施中。PyTorch库支持检查点功能，使得该技术更易于实施。

多GPU训练

什么是多GPU训练：想象一下，一个小面包店需要快速制作大量法棍。如果一个面包师独自工作，可能需要很长时间。加上第二个面包师，速度会加快。再加上第三个面包师，进度会更快。多GPU训练的工作原理与此类似。

工作原理：多GPU训练不再只使用一块GPU，而是同时利用多块GPU。这意味着AI模型训练分布在这些GPU上，让它们协同工作。从逻辑上讲，这与前面提到的检查点方法正好相反，后者是以延长运行时间为代价，减少硬件购置成本。这里，我们通过使用更多硬件来最大化效率，从而缩短运行时间并降低运营成本。

改进效果：以下是用于多GPU训练大型语言模型的三个强大工具，按照实验结果的效率递增排序：

DeepSpeed：这是一个专门为多GPU训练AI模型设计的库，能够实现比传统训练方法快多达10倍的速度。

FSDP：PyTorch中最受欢迎的框架之一，解决了DeepSpeed的一些固有限制，将计算效率进一步提高了15-20%。

YaFSDP：最近发布的FSDP增强版本，在模型训练中提供了比原版FSDP方法高出10-25%的速度提升。

5

结论

通过采用混合精度训练、激活检查点和多GPU使用等技术，即使是中小型企业也能在AI模型的微调和创建方面取得显著进展。这些工具不仅提高了计算效率，缩短了运行时间，还降低了整体成本。

此外，它们还允许在现有硬件上训练更大的模型，减少了对昂贵硬件升级的需求。通过使更多企业能够获取先进的AI能力，这些方法推动了技术的普及，帮助更多的科技公司在这个快速发展的领域中创新和竞争。

正如那句俗话所说：“人工智能不会取代你，但使用人工智能的人会。” 是时候拥抱AI了，而且通过上述策略，即使在预算有限的情况下，这也是完全可行的。（VentureBeat）

一个致力于探索人工智能对商业世界和社会影响的平台。

最新文章

OpenAI正式推出Sora Turbo

OpenAI推出全新O1模型，支持图片上传与分析，同时发布ChatGPT专业版

AWS将多代理编排功能引入Bedrock

人工智能代理入门（下）：自主性、保障措施和陷阱

人工智能代理入门（上）：捕获流程、角色和连接

马斯克与OpenAI分手的复杂内幕

人工智能开启Web4.0时代：互联网将具备自主预测、计划和行动能力

AI如何重塑我们的思维方式？

多智能体将缩短大型语言模型与通用人工智能之间的差距

谷歌将推出接管电脑的人工智能技术

这家公司洞悉了AI商业化的秘密，CEO揭示其秘诀

被马斯克开除的前Twitter CEO，官宣了自己的人工智能创业项目

《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码

首个被人工智能重塑的城市

被撕裂的OpenAI

雷朋AI眼镜是目前已知的最佳人工智能硬件

为何开发者们纷纷弃用谷歌Gemini

GPT5暂时没戏了

苹果的AI手机没有任何亮点，难怪巴菲特提前把股票卖了

硅谷风投推荐的2024人工智能创业公司（内含商业模式）

一家AI诊所在伦敦开业了

代币价格大崩溃，人工智能将出现巨大赢家和输家

世界呼叫中心之都陷入AI狂热与恐惧之中

文远知行在最后关头推迟美股IPO

美国无人出租车现在每周提供10万次服务

GPU经济学：如何在“不破产”的情况下训练AI模型

苹果计划推出AI桌面机器人

人工智能的训练数据正在枯竭，合成数据引发巨大争议

马斯克曾考虑收购Character.AI

黑芝麻科技IPO首日暴跌35%

星野海外版—Talkie火爆美国，年轻人可以与川普、马斯克聊天

OpenAI 需马上融资，今年预计巨亏50亿美元

2024年吸引到顶级风投的28家人工智能公司名单

苹果公司将以观察员身份加入OpenAI董事会

Gemini的数据分析能力不像谷歌所宣称的那么好

AI“搬砖王”的崛起

大模型集体“用户焦虑”，豆包能否不靠字节赢一次？

这家眼镜公司成了AI巨头追捧的对象

Anthropic 的 Claude 3.5 表明：大模型还有提升空间

DeepMind推出新型AI，为视频生成音轨和对话

人工智能的负效应：没有大语言模型的语种未来会消亡

MiniMax在海外的AI陪聊产品，爆了！

30万个AI助理，正排队等待召唤

奥特曼围绕OpenAI打造出一个致富帝国

投资人依然愿意为AI搜索引擎付费

当ChatGPT的广东话“讲唔正”：AI 年代，低资源语言是否注定被边缘化？

来看看微软是如何将Windows打造成AI操作系统的

大模型“价格战”开打，给刚入商业化“佳境”的智谱AI提出了新挑战

奥特曼刚对首席科学家伊利亚的离职表示感谢，马上又有一位OpenAI高管辞职了

谷歌I/O 2024刚刚宣布的所有产品

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉