让算力更加容易更加便宜

科技   2024-12-06 11:53   北京  

各位专家、各位同行,下午好!

非常高兴应邀参加中文信息学会年会和大模型论坛,我不属于学术圈,估计主办方约我来讲是希望给大家一点跨界的观察与思考,我讲的主题:让算力更加容易更加便宜。

一、人工智能的尽头是算力

算力是人工智能革命的主动力、前置条件和关键制约。这一轮的人工智能革命也就是大模型突破的主要的动力,来自于算力的大规模的增长。任何大的科技革命都需要有前置条件,这个条件不达到,这个突破是不可能的,算力就是这一轮人工智能大模型的前置条件之一。大模型往前走,最大的制约因素就是算力。

包括山姆.奥特曼、黄仁勋等都喊人工智能的尽头是算力。在过去10年,智能算力大约增长了10万倍,这是人类有史以来科技界、产业界唯一的案例。算力由三个要素构成:也就是以芯片为代表的硬件,以适配软件为代表的软件和能源,也就是电力。这三者之间是乘的关系,不是加的关系。我们解构一下十年10万倍的增长,能得出一个数量级的判断,就是过去10年芯片为代表的硬件的能力大约提高了百倍左右,以适配软件为代表的软件的能力也大约提高了百倍左右,而能源供给也就是电力大约提高了10倍。这个是人类有记录以来的经济史、科技史中非常独特的一个现象。

算力将成为人工智能发展的最重要的基础、制约条件和竞争要素。在美国山姆.奥特曼发起了所谓“7万亿美金算力计划”,有人评价是新时代的星球大战计划,这个提法现在叫美国AI基础设施计划。在美国超级计算中心的门槛是10万卡,这已经接近于标配了,包括马斯克、包括山姆.奥特曼,都在搞类似规模的超级智算中心。

我们冷静下来观察,今天的大模型可以说是刚刚起步,最大的问题是大模型的能效比太低,耗费了巨大的算力,取得了不太大的成果。今天的大模型可比1945年的人类第一台计算机艾尼亚克,占地上百万平方米,耗费了上千亿度电,但是它的算力只是相当于我们今天手机的亿分之一。今天的大模型很早期,有巨大的能效比的增长空间,单位TOKEN的能耗有极大的降低空间。

大模型这样一个能效比的状态,今天的能源系统是撑不住的。华为的孟晚舟讲未来5~10年算力会增长500倍,现在的算力能耗已经接近于总电能的2%左右了,500倍,所有的电都来做算力吗?这是不可设想的。

从需求侧、使用端看,今天的大模型,有点像开着劳斯莱斯送外卖,一个巨大的系统,耗了巨大的能源,取得了不太大的一点功效。如果就是一个聊天,有必要用这么大一个模型吗?如果就是一个文生视频,有必要做这么大的模型吗?它的投入产出比到底划算不划算?

现在业界、投资界一直在研究和呼唤,大模型有规模的经济需求到底是什么?我们团队判断,大概应该具备这么三个特征:

第一个,情景超级复杂,复杂到人类脑力所不能及,比如今天的今年的诺贝尔物理奖、诺贝尔化学奖全都奖给了人工智能科学家,这个领域复杂到人类脑力所不能及,非大模型不可,这是一大类情况。

第二个,要能够大幅度的提高效率,不是提高10%,至少提高一倍,甚至是一个数量级,10倍的提高效率。比较典型的就是在军事上的应用。大家看看在今天的巴以战争,那种人工智能、无人机蜂群的使用,战争模式完全变了,大模型极大的提高了效率。

第三个,要有钱,有支付能力。

按照这三个条件分析,金融类,基本符合这三个条件,足够复杂、大幅度提高效率,有钱。大健康、军事、自动驾驶,大概现在能看到这四、五个领域是符合这些特征的,因此中国现在大模型最热闹的也是这四、五个领域。

我的关注点归集到构成大模型最重要的成本,算力成本如何降下来?

今天的算力成本还是相当高的,算力成本高企的原因:

第一个,宏观环境。算力是由三个要素构成的,芯片为代表的硬件,适配软件为代表的软件和电力,由于美国挑起了中美贸易战、科技战、金融战,刻意限制中国人工智能发展,打破了原有的国际合作格局,对中国在算力芯片和大模型使用上断供、禁运,导致了中国算力成本高企。在硬件芯片上,英伟达H100的性能是中国目前主流芯片升腾910B的4倍以上,在软件上英伟达通过CUDA构建了强大而广泛的生态系统,而我们国产芯片的适配软件上呈现了碎片化,不同芯片存在着框架、软件栈和算子库的兼容问题。

第二个,“三个同时存在”的困局。

一、预训练、精调与推理三种需求同时存在。实际这是完全不同的三种对象、三种需求和三种供需关系,现在把它们混在一起来说。比如说预训练需求,这就是三五家大厂的事儿,跟其他小B几乎没有什么关系。这几个大厂对于万卡集群可谓望眼欲穿,如何满足基础大模型预训练的万卡集群需求,这涉及到国家战略,否则美国的基础大模型就把我们甩开距离了。这是所谓赌国运的事了。但是这类需求往前看,只占算力总需求的5%左右,它是少数贵族行为,跟多数老百姓没什么关系。

精调、推理的需求正处在爆发前期,在中国说爆发期早了点,处于爆发前期。这类需求本来是应该由云厂商来完成的,在美国就是由亚马逊、谷歌等三朵云满足了这类需求的75%。但是由于美国制裁,我们的大的云厂商,包括阿里云、华为云,在这个事情上有点欲干不能,欲罢不忍,使不上劲,一弄他就制裁你,最好使的还不能卖,不能用等等。因此算力价格高企,裸算力对使用团队而言极不方便,而且是耗时耗力。

二,算力紧缺与算力设备空置同时存在。据统计,已经上线的智算中心17亿卡时,正常使用的5.6亿卡时,使用率只占了32%。而且国产算力的使用率更低,大概32%的一半,现在缺乏准确的统计。

三,进口芯片与国产芯片同时存在。异构算力使用迫在眉睫,英伟达有明显的优势,即便它的“阉割版”在效率、能耗上也是领先的,它的软件生态很完善,对客户很友好。但是中美关系决定了,算力芯片国产化势在必行。今天1+N的格局已经形成了,这个1就是华为以升腾系为代表,现在910B占了很大的市场,年底910C就会规模化量产。N包括寒武纪、摩尔线程、燧原等国产芯片厂家,但是他们只适用于特定领域,全领域的现在可能估计还得靠华为。另外就是适配软件,N那7、8家,在软件适配上应该说力不从心。软件适配要求的能量太大,时间太长,是经验教训积累出来的,你没有那么多算子就过不去,这个要寄希望于华为。今天华为的同志也在这里,希望华为以更大的胸怀赢得业界的信任和大家的使用意愿。

我们团队最近也花了大量的精力在研究,异构算力使用的门槛确实很高,迫切需要厂家、行业和政府共同努力,迎接“临界点”,就是国产算力与进口算力旗鼓相当,就是接近于相等的那个点,我们判断这个点应该在5年左右的时间到来。

第三个,电力成本大约占算力成本的1/3左右,目前算力需求集中在东部,而东部峰谷去掉之后的电力均价大约在0·75元左右。算力是不可移动的,可以移动的是任务与数据,人工智能时代“东数西算”前景光明。在通用算力时代,“东数西算”应该说只是个美好的愿望,除掉少数对时延不敏感的,比如说冷中心可以放在西部,其他是不行的。而在人工智能情况下,大量的任务包括预训练,包括渲染都可以在西部。因此在人工智能时代,“东数西算”战略有天然的合理性,有巨大的发展空间。西北有巨大的光伏发电和风力发电的资源,但是外送成本很高。如果再把智算中心建在西北,比如新疆,我两周前去讨论这个问题,就地消纳,将大幅度的降低算力成本,把中国的绿电优势转变成算力优势。如果在西北部风电光伏富足的地区建立万卡中心,扩大“直供电”的试点,扩大增量配网的试点,将对中国的算力格局产生根本的影响。

二、中美博弈的“上甘岭”

讲到算力就不得不涉及到中美博弈。为了限制中国的智能算力,美国可以说是无所不用其极。美国的芯片出口新规两年三改,步步收紧,不断加码,美国人的目标就是把中国的算力卡在它的1/6以下。这就出现了计算云禁用、大模型禁用、芯片禁运等等一系列的措施,完全不讲商业信用,完全不讲市场规则。美国人已经意识到,中国过去五十年经济社会发展最大的技术动因,是中国跟上了这一波信息技术的快车。他们看到在大模型上存在着拉大距离的可能性。天亮的时候,也就是Chat GDP发布的时候,2022年11月30日,中美之间的差距大约半年左右时间。两年过去了,中美之间的差距是多大?有不同的说法,我个人的判断大约到了两年,美国呈现了加速度,最大的变化在算力供给、工程实践和商业氛围上,已经出现明显的加速度。美国人的目的就是利用加速度拉大与中国的距离,最后形成降维打击。

他有他的图谋,我们有我们的打算,你越限制我们越奋起。如何突破算力瓶颈,突破美国人的限制,变成了全国上下各方面的共同的思考与努力。

首先就是适度超前部署算力,一大票央企、地方国企和民营企业都投入到了算力领域。我的朋友圈子里,原来跟这事根本不搭界的都投入进来了。当然很多人是出于商业的目的,认为这个事儿能挣钱,因此大量进口英伟达算力,现在英伟达算力,美国占了全球总量的百分之六七十,中国占了剩下的百分之六七十。

其次就是芯片国产化,刚才我已经讲到了,以华为为代表的1+N的格局已经初步形成,我们寄期望于中国的芯片国产化的加速,争取在5年左右时间,国产算力与进口算力相匹敌。

另外就是中国算力网,中国算力网是鹏城实验室规划的一个国家工程,目的是要像建设电网一样建设国家算力网,像运营互联网一样运营算力网,让用户像用电一样方便的使用算力。当然这里科研的成分大一些,工程实践难度比较大。高文院士说这是一个30年的工程,就是30年后有可能达到这个状态。在算力节点建设上,鹏城实验室1.6万P的智算中心在紧锣密鼓建设中。要解决高效传输问题,把布局在不同的点上的算力,能够用一张网把它联系起来。另外就是算力的调度与分发,鹏城实验室目前是中国算力网的规划、调度中心与监测中心。

三、需求、痛点与解决方案

中国人工智能的发展格局,就是少数大厂攻克通用基础大模型,5家,最多不超过10家,用大算力集群做基础大模型。大多数企业、大学、科研机构和开发团队,就是我们说的小B,要聚焦行业模型,用人工智能模型来重塑各行各业,大幅度提高经济发展质量。

满足数以百万计的小B的精调行业模型的算力需求,以及小B精调出来的行业模型所衍生的推理需求,是一个巨大的市场需求,它呼唤着算力交易服务平台。

说一个场景,刚才我还跟好几个团队的小伙伴在议论,一个新上手的开发团队有一个科研项目要用大模型,他如果从选服务器开始,选服务器、选卡、配存储、配带宽、选大模型、选适配软件、选工具软件、选数据集,再到调通,没有一个月时间根本做不下来。如果中间遇到一点问题,卡住一点,就一拖再拖,一筹莫展。

即便你在云上买裸算力,在阿里云上买,选模型,适配软件、数据集也是困难重重。如果再加上异构算力使用,更是一头雾水,雪上加霜。

算力使用的痛点之一:容易。

我们团队经过跟鹏城、几个大厂商讨论,提了一个解决方案,就是构建容器云的调度平台,算力直达用户终端,从创建到开机只要15秒,你把需求输进去就行了,它自动生成一个结果。根据应用特点匹配算力,匹配所需要的环境工具数据,用户开箱即用。逐步提供国产算力适配服务。以技术能力构建算力交易生态,供需直接对接。云平台提供自动运维工具,实时监控,降低成本。

另外一个痛点,目前N卡英伟达一家独大,由于制裁扭曲了市场,很多事情不透明,不能公开,包括维保都变得很为难,因此导致算力成本高企。以某云为例,A100现在是每卡每月15,000元,折合到每小时20元,而市场需求是希望2-3元,是市场期望值的10倍。而且计价非常不灵活,往往以月、台为单位,而客户特别是那些小B要的是以卡为单位,以小时甚至以分、秒为计费单位。高企的算力成本阻碍了许多年轻人学习大模型、使用大模型。

算力行业的第二个痛点:便宜。

我们的解决方案是灵活调度算力需求到用户端,提高算力的分发效率与使用效率,降低使用成本。规模化的算力交易,信息透明,竞争充分,提高算力的使用率,大幅降低交易成本。分布式的推理优化,提高算力效率。提升社区增值服务,降低端到端的服务总成本。灵活计价,以秒、卡为单位。

四、算力自由,既是愿景,更是现实。

在鹏城实验室的支持下,我们发起建设了一个平台,北京算力自由科技有限公司。

算力交易服务已经成为刚需,这些央国企进场超前部署了大量的算力,但是他们缺乏服务小B和C端客户的经验,算力的使用效率比较低。而算力交易服务平台本身具有一定的门槛,首先要能够掌握MLOPS技术,算力调度交易技术,要理解小B和C端客户的需求,提供基于互联网的产品服务,要能够成为国产算力的重要使用通道。

算力交易服务平台是第四方平台,它既不是算力的供给方,也不是算力的需求方,也不是第三方中介机构,就是靠买卖算力赚差价的和专业中介机构,他是构建交易环境的中立第四方。这个本质上是个交易所,这就为什么我被邀请介入到这个领域来的原因。这是个要素交易平台,要能够提供端到端全流程的服务,包括但不限于算力评测、算力联网、算力封装、交易组织、在线支付、算力使用、合作分成等等。它最重要的是提供一个可信的交易环境,要能够主体身份可信,交易过程可信、账单可信、分成可信、支付结算可信。它要能够形成以数据驱动的价格形成机制,通过信息透明,充分竞争,形成全网的最低价。他的社区要能够多方支持,丰富优化算力用户服务的内容与体验,它应该是算力交易的携程与美团。

算力自由公司的愿景是让算力像电力一样便捷、自由地使用。它依托鹏城,融入鹏城,争取成为中国算力网的市场化通道。以启智社区、开放原子基金会为入口,今年12月上旬就会开通,也欢迎大家关注。希望能够成为国产算力的一个接入通道,汇聚各方的算力。它侧重微调与推理,不做预训练。它实际做的是Pass和Mass,用大量一键包提供服务。它的产品形态是在线网站、移动APP、定制化的客户端、API的接口、套餐服务等。

借这个机会希望引起大家的关注,能够为大家提供一些服务,让中国的算力更加容易,更加便宜,让千千万万的小B和年轻人学好用好大模型,推动人工智能的发展与产业化落地。

谢谢大家!

来源:元碳院 熊焰

本公众号部分分享的资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,且仅代表作者个人观点,与本公众号无关,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除。

关注我们获取更多精彩内容


往期推荐

● 智慧金融 算力未来 | 2024中国金融行业数据中心发展论坛报名通道正式开启

● 最佳演讲人气王 | 阿里云任华华 一册在手 液冷不愁——《数据中心液冷系统技术规程》内容解析

● CDCC 2024数据中心标准大会胜利闭幕:七色光融合,精准映射AIDC发展蓝图

● 腾讯落地全国首个风光储一体化数据中心微电网项目

CDCC
数据中心标准、技术沟通交流平台
 最新文章