人工智能走向对华全面封锁--这几天我最关注的一个新闻

财富   2024-12-07 21:51   浙江  
这几天对我来说最大的新闻,就是当地时间12月2日美国大幅扩大对中国半导体产业链企业封锁,包括大批中国半导体生产设备企业的140家企业被新列入了实体清单。感觉美国的“小院高墙”政策,在半导体领域并不成立,而是在走向对中国半导体企业全面封锁。

尤其是北方华创,盛美半导体,拓荆科技,芯源微等生产设备企业也上了清单,北方华创一直是我最喜欢的企业,可能是因为2019年以来这是我赚最多钱的一支股票的缘故。

我国四大行业协会罕见的同一时间(巧了,都在12月3日下午五点多)发声反对,包括中国互联网协会、中国汽车工业协会、中国半导体行业协会、中国通信企业协会。
而且措辞风格都还比较相似,都不约而同的、也是历史上第一次明确提到了美国芯片不再安全可靠,建议中国企业谨慎采购。

我对比了下以前我国行业协会的反应,可以说在措辞上大不相同,这是头一次出现建议谨慎采购美国芯片的说法,以前发的声明在对美措辞上要柔和的多,可见国内行业从业者的自信心这几年增强了。
从2018年的中兴事件开始,这些年美国在半导体产业方面和中国全面脱钩的趋势是明确的。

我想最后最大的原因还是,人工智能技术是现在和未来人类社会和经济发展最大的变量,是会影响千行百业的技术会极大的改变人类社会的面貌,而半导体又是为人工智能提供算力的底层技术之一。
而我国各界对于美国的制裁加码,反应已经越来越淡定,而这正是因为我国对此已经有可以应对的解决办法。

说到这里,我又不得不提起华为了,原因很简单,华为是目前国内唯一一家可以提供从芯片,操作系统,AI框架,网络(网卡,交换机),存储等全套自主研发AI算力基础设施的厂家。
而且在可见的将来,我觉得国内也很难出现第二家做到这一点。

面对美国不断在半导体领域加大封锁,华为公司的轮值董事长徐直军,就在2024年9月19日的华为全联接大会2024上做主题发言中讲述了华为如何应对:
首先认为要面对现实,国产芯片在相当长时间内先进性将受到制约,这是中国打造算力解决方案必须面对的挑战。

然后华为认为人工智能正在成为主导性算力需求,需要的是系统算力,而不仅仅是单处理器的算力。这是包括华为在内的国产算力供应商的一个机遇。
而华为在这方面的战略核心是,基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造“超节点+集群”系统算力解决方案,长期持续满足算力需求

华为的这个“超节点+集群”是什么意思呢?
在算力中心里面,单台服务器就叫做节点,而算力中心一定是几百台上千台甚至可能更多的服务器节点组成的,那对于算力中心来说,算力的瓶颈就不只是单台服务器节点的能力了,大规模节点之间的稳定和高速的通信就变得很重要了。

而通信则是华为的强项,因此如果通过华为擅长的高速互联通信技术,把多个节点视为一个超节点,在超节点内部的各个节点之间实现高速度互联,可以有效地提升训练效率,还能减少各种故障发生。
而多个超节点,就又能组成集群了。

如何让集群发挥最大功效,这里不得不提华为又一个聪明之处,就是集群装上“指挥大脑”,华为用自研的瑶光智能云脑对云上资源进行多远算力统一建模,灵活调度组合,按需提供给应用。

也就是说,不管是存储服务器也好,计算服务器的NPU芯片也好,CPU芯片也好,还是服务器的内存也好,还是不同的服务器之间也好,互相之间都支持高速通信,速度从以前的百GB/s级别达到TB/s级别。

另外,不只是通信,超节点集群内部的各种资源都可以统一快速的智能调度,训练和推理需要内存就分配内存资源,需要算力就分配NPU芯片资源,需要存储就分配存储硬盘资源,实现统一调配。

这就让我想起了拿破仑说过的:
“两个马木留克兵可以对付三个法国兵,因为马木留克兵武器更好、马匹更好、训练更好,拥有两双手枪、一支喇叭枪、一支马枪、一顶有面甲的头盔、一副锁子甲、几匹战马以及几个步行仆役。但100名法军骑兵无需害怕100名马木留克兵,300法国兵就足以战胜300个马木留克兵,而1000个法国兵就总能打败1500个马木留克兵:战术、队形和队形变换的影响实在是太大了!”
预计明年,华为云基于CloudMatrix全新架构的昇腾AI云服务将正式商用,用的就是这个思路。

实际上华为云经过这几年的努力,打造的昇腾AI云服务就已经在国内向大量企业提供了大规模的AI算力。华为云分别在内蒙的乌兰察布,安徽的芜湖,贵州的贵安,以及香港建成了四大AI算力中心集群。
像如果是华东地区的企业上AI推理应用,可以就近通过昇腾云接入到芜湖的算力中心,时延可以低至10ms。

这是华为将自己多年来打造的全自研独立自主技术,为全社会提供安全可靠的算力服务,支撑中国人工智能产业的发展。
下图就是华为云今年六月在芜湖落成的智算中心,10ms时延专线直达华东六省一市及华中(湖南、湖北、江西)20多个热点城市。

我们都知道自从2022年11月30日ChatGPT发布后,中国接着在2023年也迎来了大模型的大爆发,诞生了几百个大模型,其中有不少就跑在昇腾云上面。
像腾讯音乐2024年9月发布的Muselight大模型就是在昇腾云上运行。这个大模型可以能够辅助音乐人进行旋律构思、和声编排以及歌词撰写等,还能对听歌的用户实现更加精准的个性化推荐,以及对音乐通过元素分析进行版权评估等。

同样在今年9月顺丰发布的丰语大模型也跑在昇腾云上面。快递小哥不少是新员工,即使是老员工也有不少专业事情搞不清楚,比如寄国际快递某项物品是否符合规定,不同价格的寄送时效等等,有了大模型能力加持,小哥直接在顺丰自己的APP上问,马上就能得到专业的回答,大大提升了工作效率。
华为云昇腾AI云服务为了能为国内的几百个大模型提供算力,已经对一百多个主流大模型都做了适配,企业在用的大模型如果算力不够,可以迁移到昇腾云上面。

在2024年12月的今天,人工智能的应用已经深入到了我们生活的方方面面,我们已经在主动和被动的大量使用人工智能技术,只是我们并没有有意的去总结和察觉。
我认为每个人,每个公司都要开始自己的AI转型。

我这里总结我日常生活会用到的10个人工智能高频场景(主动或被动),从中可以一窥各行各业的智能化速度:
1:我开车会使用汽车的自动驾驶,这对应的是汽车行业智能化
2:给孩子批改作业和辅导作业,会利用AI技术,如下图。这对应的是教育行业智能化。

3:车牌识别,这背后是政务智能化和汽车服务业智能化。
4:人脸识别,比如我线上办证,进公司大楼,机场的闸机等。这对应的是政务,金融智能化和公司园区智能化。
5:手机的输入法,直接语音转化为文本,这对应的是手机智能化。
6:每天打开手机,资讯和购物APP会自动推荐感兴趣的内容,这是属于被动的使用AI。这对应的是互联网行业智能化。

7:每天接到的电话尤其是银行的电话,不少是AI客服打过来的。这对应的是客服场景智能化。
8:最近几个月,我很爱在开车的时候听各种AI生成的歌曲,例如AI模仿孙燕姿的声音唱各种周杰伦的歌,被广大网友认为是AI的神作。
这和上面使用昇腾云服务的腾讯音乐一样,对应的是音乐行业智能化。
9:AI翻译功能,例如在手机上长按图片自动翻译,这对应的是翻译行业智能化。
10:使用AI助理,有问题问AI。

除了这10个高频场景外,我喜欢周末去爬山,看到不认识的植物直接拍照就能识别出是什么名字以及详细资料。
另外现在各种无人机表演也很多,甚至可以上万架协同表演,也是应用了人工智能技术,我还特地带娃去看无人机表演,这对应的是无人机智能化。

对中国的千行百业来讲,智能化已经是必由之路,而向华为云这样的算力供应商购买算力服务是个很好的选择。
在2023年底,中国光是规模以上工业企业都高达50.1万家,如果所有行业加起来规模以上工业企业估计超过百万家。

我个人认为这里面99%以上的企业都需要在外部采购算力服务,能完全靠自建算力满足自身需求的企业是极少数。

并不是每个企业都要自己建设大规模AI算力,像AI芯片硬件迭代速度很快,自建不仅成本高,而且如果你没有做超节点和集群的能力,单纯只是买AI服务器硬件,那么过一两年在性能上可能就落后了;
而且算力中心里面往往是多个代际的硬件在跑,导致资源调度复杂度高,如果没有专业的厂家来做资源调度,可能因为历史代际产品的“木桶短板”效应,拖累新一代产品性能的充分发挥,影响大模型训练的能力,不仅如此多代际产品共存还导致运营维护很困难。

另外从基础大模型这两年的发展看,大模型的训练需要越来越多的高质量数据,预训练数据量已经进入10万亿tokens量级。
而且大模型参数量也在持续增大,带来的是训练成本升高,这就导致能玩得起大模型训练的厂家在以后会越来越少,大部分企业未来将会聚焦自身业务,而去采购业界巨头公司训练的大模型。

在这样一个趋势下,各大厂商也在不断的在技术上升级自己提供的算力服务,以满足中国千行百业智能化的需要。
上文我提到过,昇腾云预计将在明年商用的Cloudmatrix架构,就践行了超节点+集群的理念。
在算力中心里面,一切资源(CPU,NPU,内存)可池化,一切可对等连接,一切可进行组合,极大的提升效率,极大的提升可靠性。
这就像一个大公司打破了管理的部门墙,可以任意的让不同的员工组合成一个优秀的团队。
华为内部用盘古大模型做了测试,使用同样的模型,在CloudMatrix架构下稠密模型训练效率可提升20%,而稀疏模型训练效率可提升60%,在推理场景性能也能提高30%,这就弥补了在单颗芯片制程上落后英伟达的不足。

大模型训练时,并不像我们想象的那样会一直从0%-100%,只需要等待即可,而是会不断的中断。
今年7月份,Meta 在一份研究报告中揭示了训练他们的Llama 3 (4050亿参数)模型遇到的问题:该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行,在训练期间平均每三个小时就发生一次故障, 54 天内经历了 419 次意外故障。

这充分体现了上万张训练卡一起运行时的巨大挑战。
而华为云持续优化昇腾 AI 云服务,目前已经实现将万亿参数模型的训练无中断时长从 2.8 天提升至 40 天,并将集群故障恢复时间从 60 分钟缩短至 10 分钟,这表明在优秀的集群架构下,国产算力中心的可靠性完全可以达到甚至超过英伟达的水平。

另外,针对大模型训练的数据安全,华为云还采用了数据传输与存储加密、数据安全清除、数据访问控制、数据水印防泄漏等多重技术,确保大模型训练数据的全生命周期安全。

AI实际上已经渗透到我们生活的各个方面,中国各个行业都在不断的引入和使用AI,用来提升效率,并引起经济,军事和社会变革,而率先变革的国家将对后来者形成巨大优势。
例如自动驾驶的全面普及,将会影响数百万出租车司机,滴滴司机,公交车司机,大巴车司机的工作岗位;
个人AI助理逐渐普及,在逐渐冲击谷歌和百度这样传统搜索引擎的份额。

AI如此重要,也无怪乎美国人将此作为主要封锁点,美国在半导体行业进行封锁后,国内还有华为昇腾云能提供全栈国产并且效率和可靠性都不错的算力服务,已经实属难得。
国内各行各业共同将国产的算力生态不断壮大,相信未来总有最终彻底冲破封锁的一天。

查理看世界
严选深度财经文章
 最新文章