最近读了篇文章《谈谈三万亿的破绽》,讲的是目前(股价)高高在上,吸引了全球资本眼光的英伟达有什么破绽。也顺便借此这篇文章读了衍生出来的几篇文章,抛去一些技术细节,讲下我的理解。
在历史上,某项技术消亡往往是因为这项技术固步自封,被其它更先进的技术所淘汰。在计算机领域内,开源加速了技术进步的速度,也加快了技术被淘汰的速度。Oracle在数据库领域算无敌了吧,曾经占据了全世界大部分的数据库市场,但是开源的MySQL和PostgreSQL硬是将Oracle逼成了Others;谷歌发明了MapReduce、GFS和BigTable,开启了大数据时代,而现在提起大数据技术,大家大概率只会想起Hadoop、Spark。
这些文章里的作者都分别提到了英伟达的漏洞,包括但不限于:
• 英伟达占据了GPU生态链条上的大部分利润:H100 GPU 成本只有2000美元,但它在市场上的售价是30000美元。从而导致“整个链条上就英伟达赚到了钱,其它人赚到了“赚钱的期望””,这样会让所有合作者都站到你的“对立面”。
• GPU本身就不是为AI设计的,为了兼顾AI和图像性能,就必须做出取舍。与此相反的是,谷歌的TPU抛去了图像性能,专注于AI ,从而走出了一条新路,直到英伟达发布H100,TPU和GPU之争才告一段落。但是显然,TPU的诞生和优秀的性能证明了:“GPU不是AI的最优解,定制化专用芯片(ASIC)有破解英伟达垄断地位的可能性。”
这两个原因在我看来站不住脚,这些都不足以说明英伟达会跌落天堂。目前对于英伟达而言,它的护城河是“GPU+NVlink+CUDA”的三位一体,而不是仅仅靠一个 GPU 支撑,反对者再多,如果无法完整替代“GPU+NVlink+CUDA”,也是很难撼动英伟达的地位。
GPU 是存在竞品的,因为定制化专用芯片(ASIC)确实是可能打破GPU的垄断,因为现在英伟达的估值很大一部分是来源于GPU对于AI的不可替代性,而不是GPU的图像性能。
目前AI领域最热门的是大模型,而对于大模型, 内存容量、内存带宽以及互联带宽成了最核心的竞争力,而算力的重要性下降了。在这个前提下,NVlink(GPU之间的互联带宽)的重要性被不断提高,然后在未来如果英伟达做到了能把一个大模型放到了一个GPU里,我想NVlink就被自己革命了。当然也给其它的GPU公司带来了一线希望,万一比英伟达更先做出来呢?
CUDA作为GPU的操作系统,目前是真没看到一个完美的替代品。我想下一个CUDA的替代品大概率是来源于开源社区,靠着开源的力量统一不同GPU的兼容性,最后逼着所有公司都得兼容开源CUDA。无竞品,意味着无法评论。因为硬件公司做的再好,无法取代CUDA(GPU的操作系统),英伟达的地位不会受到致命打击,大部分人还得硬着头皮用GPU去跑模型。
参考链接:
1. 《谈谈三万亿的破绽》,https://mp.weixin.qq.com/s/q3h_NVpXSMfrlDPlpt48Pg
2. 《谈一下英伟达帝国的破腚》,https://zhuanlan.zhihu.com/p/639181571
3. 《英伟达帝国的一道裂缝》,https://mp.weixin.qq.com/s/hK33RwqbqSH7FPqVKUEXCw
4. 《英伟达的破绽》,https://zhuanlan.zhihu.com/p/640901476
5. 《英伟达的更多破绽》,https://zhuanlan.zhihu.com/p/690255983