生成人工智能的成本也遵循自己的”摩尔定律”

科技 2024-11-16 11:48 美国

“在很大程度上，是基础商品成本的迅速下降推动了技术周期。”

从大型语言模型（LLM）生成响应的成本呈现出与科技行业最著名的三项“法律”相媲美的趋势。

LLM推理每年都在以比摩尔定律、埃德霍尔姆定律和丹纳德缩放等先前的大趋势急剧下降——尽管目前还不清楚这种模式是否会持续。

但在我们解释论点之前，这里对这三条法律的简要总结。

摩尔定律预测，芯片上的晶体管数量大约每两年翻一番，这意味着计算成本实际上减少了一半（尽管摩尔第二定律指出，随着复杂处理器的设计和构建变得更加困难，构建芯片工厂的成本每四年翻一番）。

埃德霍尔姆定律预测，数据传输速度和电信网络的带宽大约每18个月翻一番——这一观察自20世纪70年代以来一直存在。

最后，Dennard缩放，也称为MOSFET缩放，指出，随着晶体管变小，其功率密度保持不变，在不增加功耗的情况下实现更高的性能。这一原则于1974年提出，大约在2006年开始崩溃，因为芯片变小，电流泄漏恶化，热激增，热失控的风险增加，导致能源成本上升。

为什么大模型推理法的成本下降了？

LLM的价格下跌“甚至比PC革命期间的计算成本或互联网热潮期间的带宽速度还要快。”

他写道，对于同等性能的LLM来说，成本每年下降10倍。“鉴于该行业的早期阶段，时间规模可能仍然存在变化。但从这些较低的价格点开始的新用例表明，人工智能革命将在相当一段时间内继续产生重大进步。”

在很大程度上，推动技术周期的是基础商品成本的迅速下降。“在分析自公开引入GPT-3以来的历史价格数据时，似乎——至少到目前为止——类似的定律适用于大型语言模型（LLM）的推理成本。”

为了确定趋势，VC使用MMLU分数（大规模多任务语言理解）检查了OpenAI、Anthropic和Meta的LLM性能，这是一个评估模型性能的基准。然后将此与历史定价数据进行了比较。

当GPT-3于2021年11月公开访问时，它是唯一能够实现MMLU的模型——每百万token成本为60美元。“截至撰写本文时，实现相同分数的最便宜的模型是Llama 3.2 3B，来自模型即服务提供商Together.ai，每百万token 0.06美元。LLM推理的成本在3年内下降了1000倍。”

“毫无疑问，我们每年都看到成本大幅下降。”

到目前为止，成本降低是由于GPU的成本和性能的提高，以及模型推理和软件优化的效率的提高，减少了生成响应所需的计算机和内存带宽。

较小的模型也证明了尺寸在LLM世界中并不重要，10亿个参数模型现在执行的是三年前最先进的1750亿个参数模型。

虽然LLM推理的成本可能会继续下降，但其速度可能会放缓。“LLM推理成本的迅速下降仍然是人工智能的巨大福音。每次我们把某物的成本降低一个数量级，它都会打开以前在商业上不可行的新应用场景。”

http://mp.weixin.qq.com/s?__biz=MzU4ODY5MzkzOA==&mid=2247492618&idx=1&sn=52bacbef2f97ed9e25957567bdeede90

数字芯片实验室

前瞻性的眼光，和持之以恒的学习。

最新文章

中国内存芯片厂商的全球野心：低价策略颠覆市场格局！

DRAM遇到了“内存墙”

生成人工智能的成本也遵循自己的”摩尔定律”

MRDIMM内存模块，继续扩展DDR5路线图

为什么DRAM受到的最大威胁是SSD

什么是RTL Signoff

为什么每个人都要进入HBM市场？

硅仙人Jim Keller将为日本培训芯片设计工程师

数据中心业务，AMD再一次赢了英特尔

ASIC设计流程概述part1

前AMD工厂GlobalFoundries坦白和中国公司有贸易，仅被罚50万美元

英伟达入局高端PC处理器芯片

他们将依次安装最先进的光刻机，每台超3.5亿美元

Qualcomm Interview Question (Physical Design)

AMD interview Questions (Physical Design)

回首过去，英特尔的Architecture-Optimization (PAO) ，变成了PAOOOO

什么是英特尔的tick-tock策略

芯片中的buffer是什么？

台积电的美国工厂产能超出预期

半导体将在2025年强劲复苏

DDR的信号完整性和协议测试

DDR5信号完整性基础

RC寄生参数在芯片后端设计中的意义

跨时钟域导致的数据丢失问题

为什么要关注跨时钟域问题

跨时钟域场景下的汇聚Convergence问题

了解Verilog和SystemVerilog中的$monitor系统任务

三星推出适用于GPU、人工智能的GDDR7 DRAM

什么是建立和保持时间违例大小Slack

英特尔的研发支出比英伟达和AMD的总和还要多，但市值继续拉垮

数字芯片中保持时间的等式描述

数字芯片中建立时间的等式描述

介绍D触发器的电路级工作原理

什么是跨时钟域Clock Domain Crossing

什么是两级触发器同步器？

没有中国玩家？比利时微电子研究中心imec 的汽车芯片计划

DFT基本概念-测试点

Verilog task和function的区别

美光将在美国投资500亿美元，加速美国制造回归

System Verilog中的队列queue

如何降低片内总线上的功耗

3D NAND价格下跌，大厂考虑削减产量

什么是FPGA（现场可编程门阵列）？它是如何工作的？

什么是过程赋值Procedural Assignment

latch中的Timing Borrowing概念

ADATA推出DDR5 CUDIMM内存：在16 GB和24 GB容量中高达9200 MT/s

Verilog中的文件读取和写入

存储设备 – ROM介绍

verilog中的parameter、define和localparam

DFT vs DV，你应该选择哪一个？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉