“在很大程度上,是基础商品成本的迅速下降推动了技术周期。”
从大型语言模型(LLM)生成响应的成本呈现出与科技行业最著名的三项“法律”相媲美的趋势。
LLM推理每年都在以比摩尔定律、埃德霍尔姆定律和丹纳德缩放等先前的大趋势急剧下降——尽管目前还不清楚这种模式是否会持续。
但在我们解释论点之前,这里对这三条法律的简要总结。
摩尔定律预测,芯片上的晶体管数量大约每两年翻一番,这意味着计算成本实际上减少了一半(尽管摩尔第二定律指出,随着复杂处理器的设计和构建变得更加困难,构建芯片工厂的成本每四年翻一番)。
埃德霍尔姆定律预测,数据传输速度和电信网络的带宽大约每18个月翻一番——这一观察自20世纪70年代以来一直存在。
最后,Dennard缩放,也称为MOSFET缩放,指出,随着晶体管变小,其功率密度保持不变,在不增加功耗的情况下实现更高的性能。这一原则于1974年提出,大约在2006年开始崩溃,因为芯片变小,电流泄漏恶化,热激增,热失控的风险增加,导致能源成本上升。
为什么大模型推理法的成本下降了?
LLM的价格下跌“甚至比PC革命期间的计算成本或互联网热潮期间的带宽速度还要快。”
他写道,对于同等性能的LLM来说,成本每年下降10倍。“鉴于该行业的早期阶段,时间规模可能仍然存在变化。但从这些较低的价格点开始的新用例表明,人工智能革命将在相当一段时间内继续产生重大进步。”
在很大程度上,推动技术周期的是基础商品成本的迅速下降。“在分析自公开引入GPT-3以来的历史价格数据时,似乎——至少到目前为止——类似的定律适用于大型语言模型(LLM)的推理成本。”
为了确定趋势,VC使用MMLU分数(大规模多任务语言理解)检查了OpenAI、Anthropic和Meta的LLM性能,这是一个评估模型性能的基准。然后将此与历史定价数据进行了比较。
当GPT-3于2021年11月公开访问时,它是唯一能够实现MMLU的模型——每百万token成本为60美元。“截至撰写本文时,实现相同分数的最便宜的模型是Llama 3.2 3B,来自模型即服务提供商Together.ai,每百万token 0.06美元。LLM推理的成本在3年内下降了1000倍。”
“毫无疑问,我们每年都看到成本大幅下降。”
到目前为止,成本降低是由于GPU的成本和性能的提高,以及模型推理和软件优化的效率的提高,减少了生成响应所需的计算机和内存带宽。
较小的模型也证明了尺寸在LLM世界中并不重要,10亿个参数模型现在执行的是三年前最先进的1750亿个参数模型。
虽然LLM推理的成本可能会继续下降,但其速度可能会放缓。“LLM推理成本的迅速下降仍然是人工智能的巨大福音。每次我们把某物的成本降低一个数量级,它都会打开以前在商业上不可行的新应用场景。”