图源:pixabay
导读:
AI造成的能耗远远不仅来自于算法和芯片,还包括与之配套的基础设施,其中最重要的就是数据中心的能耗。
知识分子 | 来源
无论是否支持人工智能(AI)的发展,我们都难以忽视一个重要的问题,那就是AI的能耗。有人担心AI发展过快,对能源市场和环境、气候造成冲击;而有人担心能源产业进步太慢,最终成为制约AI发展的瓶颈。
根据预测,随着AI的发展和普及,AI在能耗中的占比还将逐年提升。AI研发企业也在能源供应方面进行了大笔投资,以期满足未来需求。10月14日,谷歌公司宣布将购买核能初创公司Kairos Power建造的小型模块化反应堆生产的电力[1]。此前在9月20日,微软公司宣布与星座能源公司(Constellation Energy)达成协议,将重启三里岛核电站1号反应堆,并购买其未来20年内产出的电能[2]。OpenAI首席执行官山姆·奥特曼(Sam Altman)更是早早出手,在今年年初就大举投资核聚变。
关于AI的耗电量,一篇广为流传的报道称,ChatGPT 每日耗电量或超 50 万千瓦时,相当于1.7万个美国家庭的能耗[3]。还有研究估算,在最糟糕的场景下,未来谷歌AI的能耗将与像爱尔兰这样的国家相当[4]。然而另一方面,也有观点认为媒体和大众选择性关注估算结论较为夸张的研究,并将对AI能耗的担忧视为社会对新技术惯有的反应[5]。
尽管当前关于AI能耗的讨论大多基于估算数据,但我们仍然可以就此进行一些定性讨论。例如在算法层面,多位业界人士表示,就单次计算耗电量来说,AI在训练阶段比推理阶段能耗更高。也就是说,大模型训练过程中的超高能耗不会成为AI应用中的常态。
清华大学电子工程系主任、清华大学信息科学技术学院副院长汪玉团队测试了不同算力芯片的单卡推理功耗,他告诉《知识分子》:“推理阶段的功耗基本在300W-500W,国产卡在150W-300W;相比之下,训练阶段的功耗在400W-700W。未来推理功耗还有比较大的下降空间,同等算力有望降到100W以下。”以开源大语言模型LLama3-405B为例,该模型有4050多亿参数,“使用近16000块英伟达H100 80GB版本GPU进行训练,耗时长达54天完成,加上配套设备总功耗接近20兆瓦,总能耗超过20000兆千瓦时”。
真实训练的能量消耗要高于理论计算的结论。汪玉表示,大模型训练时间长,GPU等硬件难以避免出现错误。在训练过程中需要不断进行检查点的保存,出错后中断训练并进行检查点的恢复,这些操作均会造成难以预测的额外能耗开销。“这个应该还是很可观的”,汪玉说。
他提到,在大规模集群训练中容错相关的能耗开销还是非常大,比如Llama 3-405B在为期54天的训练期间,共发生了466次任务中断(平均每3个小时发生一次中断),约78%的中断由硬件问题引起,容错和错误恢复的时间占比约10%,实际算力利用率只有38%左右。
不过,从应用场景上看,用户推理请求的调用频率要高得多。也就是说,即使单次调用AI的耗电量很低,其总能耗也可能相当可观。南京大学高性能计算中心主任、高级工程师盛乐标告诉《知识分子》,AI系统运行阶段最主要的成本就是电费,但是,“AI的实际应用价值与推理操作的广泛使用直接相关,只有在推理方面用得更多,AI的落地价值才更大。”
随着技术的完善,日常使用AI推理的单次能耗有望下降。上海数珩信息科技创始人、董事长张继生介绍,为提高AI系统在特定场景中的性能、降低整体能耗,研发出了很多软硬件技术,包括模型压缩、剪枝、量化、异构计算芯片等。
清华电子院能源电子中心主任兼清鹏智能创始人李中阳重点关注算电协同相关技术的研发与应用,如何匹配算力的用电特性与新能源的供电特性是这一技术的核心,而这恰恰又需要AI前沿技术特别是大模型技术的加持。李中阳表示:“在宏观上,即使AI的能耗/计算量在持续降低,其实也是挺费电的,因为计算量始终在那儿。”
总体上,关于AI算法能耗的讨论主要基于模型体量、显卡功率、计算时长等参数进行估算,这使得讨论尤为困难。研究AI伦理、政策的研究者们呼吁改变这种不透明的现状。
讨论AI能耗问题的困难不仅在于信息不透明,还因为它的边界难以界定。具体而言,AI造成的能耗远远不仅来自于算法和芯片,还包括与之配套的基础设施,其中最重要的就是数据中心的能耗。
尽管数据中心不仅用于AI的运行,还运营加密货币等业务,但是伴随着AI的爆发,AI在数据中心业务中的位置越来越重要,数据中心的数量和规模也在快速增长。而无论是能耗的数量级,还是背后多样的影响因素,数据中心的能耗问题都要复杂许多。
数据中心的耗电量远远超过一般人的想象。国际能源署(IEA)发布的一份报告显示,2022年全球数据中心、比特币和AI消耗的电能占全球用电量的2%,达到460 TWh[6]。基于当前增长趋势,IEA估计到2026年,全球数据中心总能耗将达1000 TWh,增幅超过一倍。
据统计,目前全球拥有超过8000座数据中心,其中约33%位于美国,16%位于欧洲,接近10%位于中国[6]。中国社会科学院工业经济研究所助理研究员张瑾告诉《知识分子》:“全国数据中心的耗电量加起来,与其他30个省份(除去港澳台和西藏)一起排序,大概排在10多名左右,超过近一半的省份全年的电力消耗量。”
并且,数据中心的数量和体量还在增长。张瑾说:“在我的研究区间之内,数据中心的发展是爆炸式的,不管是行业预测,还是股票市场的投资,大家对它普遍抱有极大的热情。”
IEA报告指出,在数据中心内部,冷却系统和服务器的能耗最高,各占数据中心能耗的40%。剩余20%的电能则用于能源供应系统、存储设备和通讯设备[6]。其中,随着数据中心规模扩大,芯片设备功率提高,冷却系统的能耗日益引起关注。然而,降低数据中心电能消耗的设计同时会造成耗水量的上升,在另一个维度上对生态造成影响。
国际标准化组织可持续金融科技工作组专家、中国环境科学学会碳达峰碳中和专委会委员陈钰什告诉《知识分子》,随着数据中心规模越来越大,使用传统冷却系统的耗电成本较高,因此,“大型数据中心逐步‘弃电用水’,通过冷水机或冷却塔来交换热量。这虽然可以大幅降低耗电量,但却又因蒸发等原因造成惊人的耗水量。”
微软发布的公开报告显示,微软在2022财年的耗水量为640万立方米,同比增加34%,这一趋势与AI的发展密切相关[7]。加州大学河滨分校电气与计算机工程副教授任绍磊(Shaolei Ren)团队研究显示, GPT-3每响应10~50个请求,就要“喝掉”一瓶550 mL的水[8]。
而陈钰什指出:“由于担心设备遇水发生腐蚀等破坏,数据中心多使用淡水,仅有一小部分为非饮用水或可再生水。2022年,谷歌全球各地的数据中心共耗水52.2亿加仑(约1,976立方米),其中四分之三以上均为淡水。这种用水结构进一步增加了AI行业对全球水生态系统的影响。”
从宏观角度上看,AI的环境影响不仅与耗电量有关,也与电能的来源密不可分。发展更加清洁低碳的能源,并且在基建层面进行规划,也有助于让AI更加环境友好。多位业界人士提到,数据中心应当靠近发电厂,以实现算电耦合,减少电能传输和存储过程中的损耗,这样的产业布局也有利于吸纳绿电。
“近几年,随东数西算战略推进,数据中心布局呈现出由中心向周边、由东部向西部的发展流动趋势”,汪玉告诉《知识分子》。他指出,目前新疆有丰富的绿电资源,如光伏、风电。李中阳也认为:“对中国而言,最大的优势是拥有坚强的电网和充足的能源供应能力,挑战是怎么样尽可能使用更多的新能源(发展人工智能)。”
然而,在东西部发展不均衡的背景下,在西部建设数据中心也面临着人才缺乏、维护困难的问题。“东数西算最大的问题,是东部的数据或计算需求到不了西部,”盛乐标指出。AI计算往往需要大量的数据,如果计算需求离数据中心太远,数据的传输成本就会非常高。因此,尽管贵州、内蒙等西部地区建设了不少数据中心,但它们的使用效率还远远比不上东部的超算中心。
在气候议题越发紧迫的当下,AI的发展与节能减排目标之间的矛盾显得越发尖锐。有学者担忧,从短期看来,AI增长造成的硬件需求增加必然会增加能耗和碳排放。
“数字产业化和产业数字化,现阶段在整个经济系统的碳排放中占比,实际上非常高。尤其是,人们天然认为新技术产业是符合绿色、低碳要求的,但其实它们的能耗一点也不低,生命周期排放也是相当高的。”张瑾告诉《知识分子》。
她指出,总体上,学界目前认识到,数字化转型与碳排放之间呈现出倒U型关系。在数字化发展初期,大量的基础设施建设、落后的配套设施及人才,使得数字化节能减排的效应会被建设初期产生碳排放增加效应抵消;随着基础设施逐步完善,数字化的技术效率效应显现,可以大幅提升能源效率和减排效果。“但最近我们的研究发现,(数字化转型与碳排放之间)或许是N型关系,即随着数字化发展深度和广度持续推进,数据要素和算力成为驱动经济增长的关键要素时,其对电力的需求会呈现飞跃式的增加,届时会进步一增加能耗和排放。”
也有观点认为,AI能够成为人类应对气候变化的得力助手,并且这方面的一些应用已经落地。“人工智能可以提供创新的方式来监测、分析和减少我们对环境的影响。”陈钰什告诉《知识分子》。
他举例说,西门子中国上海智能制造中心的AI数字化能源管理系统实现了覆盖整个制造流程的预测性维护,在提高能源效率的同时避免了非计划停机带来的额外消耗,单位产品能耗降低24%;人工智能驱动的华为云盘古大模型、谷歌Flood Hub服务提供了更先进的气象预报,能够帮助人们应对灾难天气。除此之外,AI还可以用于电网调度、废弃物管理等领域。
然而,量化评估AI在不同技术发展阶段对环境各个方面的影响十分复杂。郑州大学管理学院讲师李国昊指出:“现在使用经济计量方法得出的结论是人工智能发展能够减少排放,但这个结论其实是存在疑问的,因为很难把AI影响碳排放的复杂机理说清楚,也很难将影响路径中其他干扰因素剔除掉。因此,还要建立更精细的系统模型,来测算它的真实影响。”
除此之外,还可能存在反弹效应——成本降低会带来技术的普及,使总能耗提升。例如,当家用汽车的发动机燃油效率提高后,驾车出行的成本降低了,人们就更倾向于驾车出行,造成总能耗增加。李国昊认为,人工智能也可能遵循同样的发展路径:随着人工智能效率提高、成本降低,其部署量和总能耗也会提高。
不过,在人工智能高歌猛进的当下,讨论其环境影响有时又显得不合时宜。李国昊表示:“关注 AI的能耗本身,就像在经济发展初期去关注环境问题,本身就是不讨好的事情。”
商业、科技行业“赢家通吃”的逻辑放大了对落后的担忧。但多位业界人士指出,一味发展模型、建设数据中心并不可取。
盛乐标指出,从头训练大模型成本高昂,对中小企业来说并不现实,“单一追求大型模型和数据中心的建设并不够明智,AI要落地产生更大的价值,未来肯定是面向各行各业的行业大模型……只有热度降下去以后,我们真正把精力放在算法的优化上,或者是跟行业结合的相关模型研究上。通过与具体行业应用的深度融合,才能实现AI价值的最大化。”
相比之下,有针对性地训练较小的模型可以用较低的成本满足落地需求。一些企业已经开始了这样的尝试。“我们的能源消耗一定是比正常他们在做大模型的低很多。”张继生介绍,“OpenAI这些公司做的大模型都是过千亿参数的模型。我们跟客户走得比较近,了解客户的需求,并根据这些需求做了不同领域、不同行业的小模型,有些模型可能只有20亿或50亿参数。”和万亿参数模型相比,这样的小模型训练成本、训练时长都大大压缩,同时还能很好地适应特定领域的使用场景。
与功能强大的通用大模型相比,面向特定领域的模型比较不容易引发大众的关注。实际上,多个AI引擎已经在用户页面提供了特定的话题、用途选项,以便更精确地满足用户需求,这其中就体现了模型的迭代。
9月12日,OpenAI发布了较小的o1-preview和o1-mini模型,它们针对STEM领域进行了优化,“在物理、化学、生物领域的重要挑战性任务上的表现与博士生相当”[9]。媒体报道指出,新的模型进行了更多的推理过程,增加了响应的延迟,有时要一两分钟才能输出答案;这种做法可能增加了能耗,但同时大幅提升了解答的质量,将来也许能够帮助人类解决一些重要的问题。
或许,除了人工智能之外,我们还可以从其他许多方面入手,降低数字技术的碳排放。图灵奖得主大卫・帕特森(David Patterson)从加州大学伯克利分校退休后加入谷歌公司,他牵头的一项研究分析了在智能手机和云端进行机器学习的能耗和碳排放,于今年1月发表[10]。他在回复《知识分子》的邮件中表示:“根据我的研究,我认为和使用AI产生的碳排放相比,计算机制造的隐含碳对气候变化构成了更大的挑战。”
该研究估计,人工智能和机器学习的用电量仅占智能手机用电量的1%,并指出手机充电器消耗的能源达到手机的3倍以上,无线充电器的能耗尤其高昂。研究还指出:“2021 年,使用寿命过短的智能手机的隐含碳足迹几乎是数据中心服务器的 3 倍……不久前人们抛弃了 75 亿部智能手机。”
总而言之,人工智能的能耗问题牵涉微观和宏观的多个层面,气候问题更是如此。有时候,这样的复杂性会成为人们回避讨论或不作为的理由。但是另一方面,这也表明无论行业还是个人,我们有许多种途径可以推动改变。
欢迎关注我们,投稿、授权等请联系
saixiansheng@zhishifenzi.com
合作请添加微信SxsLive2022