财迷‖蔡崇信说中国AI只比美国落后两年?本文将用数据证明他错得离谱
财富
财经
2024-04-07 16:50
中国香港
第二条消息是阿里新的掌门人蔡崇信承认了中美科技差距,但他却说神州的AI技术,比如最近很火的LLM(Large
Language Model,大语言模型,典型例子包括GPT的不同版本和谷歌GEMINI),或许只比米帝落后了两年:第一,神州和米帝的AI技术差距是否真的只是落后米帝两年?第三,我等草民又该采取什么策略,才能趋利避害,赚点小钱钱?要讲清神州和米帝AI技术的时间差距。就要从两方面谈起。一个是应用层面,一个是硬件基础面。应用层面,主要是搞通用大模型——Gemini 1.5 Pro ,GPT-4 ,Anthropic ,LongLLaMA 都是个中翘楚。现在米帝的AI通用大模型,除了GPT4和Gemini这样的文字问答模型,还有正在不断进化的文生图模型、已经推出的文生音乐模型和开始内部测试的文生视频模型。下面财迷依次做个介绍:文生图软件有很多,但Midjourney毫无疑问是佼佼者,这个软件和Stable Diffusson 以及Leonardo AI现正在文生图领域展开三国争霸:上面这些软件都在不停迭代——Midjourney在2024年2月份推出了V6 模型,相比于之前的 V5.2 模型,V6最牛逼的地方在于:而以往的版本里面,很多图一眼就能被辨认出是AI制造的,而V6版本的图片,一般人几乎难以察觉这是AI制作的。还有下面这张图,如果不说这是Midjourney的作品,你可能会以为这就是一张工艺品图片:还有下面这张图,你可能就以为是动画片《辛普森之家》的截图,但其实也是Midjourney的杰作:美国时间2月15日,OPEN AI的文生视频大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。具体操作步骤是:用户通过输入一段 Prompt 提示词经由 DALL·E 重述文本继而生成图像,Sora 基于初始图像与重述后的描述性文本生成视频。Sora目前支持 1 分钟时长以内、多种分辨率与宽高比的视频生成,风格涵盖真实世界与虚拟世界的各类题材。这意味着不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了业内领先水平,引领多模态产业革命。在基础原理上,Sora视频生成过程大致由“视频编码+加噪降噪+视频解码”三个步骤组成。视频压缩网络、时空patches、transformer架构、视频数据集等技术与资源在其中发挥了重要作用。过往VAE应用于视频领域通常需插入时间层,Sora从头训练了能直接压缩视频的自编码器,可同时实现时间和空间的压缩,既节省算力资源,又最大程度上保留视频原始信息,或为Sora生成长视频的关键因素,并为后续处理奠定基础。1)同时考虑视频中时间和空间关系,能够捕捉到视频中细微的动作和变化,在保证视频内容连贯性和长度的同时,创造出丰富多样的视觉效果。2)突破视频分辨率、长宽比等限制的同时显着提升模型性能,节约训练与推理算力成本。1)相比于U-Net架构,transformer突显Scaling Law下的“暴力美学”,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好。2)此外,在transformer大规模训练下,逐步显现出规模效应,迸发了模型的涌现能力。在原生视频的基础上,将DALL・E3的re-captioning技术应用于视频领域,同时利用GPT保障文字-视频数据集质量,使得模型具有强大的语言理解能力。第二 ,Sora具有3D 一致性(3D
consistency)。确保景别切换时运镜的连贯性。在“一镜到底”的样片当中,画面中场景中的天空、树木、街边的装潢与叙事主题人物的空间关系始终符合物理世界逻辑,Sora 的 3D 一致性能够确保视频在景别切换的过程中运镜的连贯性。远距离相干性和物体持久性:确保透视关系下被遮挡物始终存在。如下图,在前景中的人物陆续走过后景中斑点小狗的过程中,在画面的透视关系与景深连贯稳定的情况下,被遮挡的斑点小狗并未在后续画面中凭空消失。第三,与世界的互动性:确保真实世界的常识始终在场。在叙事主体与世界发生交互之后,真实世界的物理规律等“常识”始终在场,并未出现违背常识的画面。除了对于真实物理世界连续且稳定的视频呈现,Sora 同时也可以生成例如 Minecraft 这类虚拟世界视频场景。真实世界与数字世界的双重生成能力一定程度上促使 Sora 有望成为一部“通用世界模拟工具”。2024年3月22日Suno公司推出了V3版本。Suno V3 能够在几秒钟内创作出完整的两分钟歌曲。1)V3版本的推出使音乐生成的质量更高,且能够制作各种风格和流派的音乐和歌曲。如古典、爵士、嘻哈、电子等。2)提示词连贯性有了大幅改进,使生成的音乐更加流畅和连贯。3)V3版本的歌曲结尾质量也得到了极大的提高,增强了整体音乐体验。4)引入 AI 音乐水印系统,有效保护用户创作不受滥用,防止抄袭行为。Suno 平台提供两种音乐创作模式:默认模式与自定义模式,以适应不同用户的创作需求和偏好。在默认模式下,用户的创作过程主要依赖于 AI 生成的提示词(AI prompt)。自定义模式则为用户提供了更高的创作自由度。用户可以根据个人的创作意图和风格偏好,自行撰写歌词,或是引用经典古诗词、熟悉的歌曲歌词等文本材料。2024年2 月 Suno 的访问量为 810 万,从去年 11 月开始,平均每月增长约 110万的访问量。与之相比,神州推出的大语言模型有一个KIMI据说还不错,在部分指标甚至可以超过GPT4——具有百万字无损上下文阅读能力。但这个终究还只是大语言模型,只能进行长文总结和解毒,无法做到文生图/音乐/视频。国内现在文生图的最高水平是百度的“文心一言”,其质量如下:至于文生音频模型和文生视频模型,现阶段还没有听见国内有哪一家公司宣称在做——毕竟百度“文心一言”带来的负面舆论影响过大,
导致很多奸商也不敢放卫星了。行文至此,我们就可以做个小结:由于文生图模型的技术也就是一两年前才成熟,文生音乐模型刚推向市场,文生视频技术才刚出现,所以在AI应用层的差距,神州和米帝似乎确凿只有1-2年。讲AI的硬件基础,必谈英伟达。毕竟,在AI加速器芯片领域,英伟达的全球市占率达到86%。英伟达有两大护城河:硬件芯片和软硬件整合技术CUDA。英伟达每隔一两年就会出一块新的硬件芯片,比如上个月就推出了最新的AI芯片B200,是台积电的4NM制程:这个B200相对于前一代H200在性能上有大幅提升:在芯片提升的基础上,英伟达从售卖单芯片转向售卖算力硬件系统,推出超级芯片 GB200(2GPU+1CPU)、超级计算机GB200 NVL72(72 GPU+36 CPU)和 DGX SuperPOD一站式AI超算解决方案(576 GPU+288 CPU)。GB200是通过900GB/s低功耗NVLink芯片间互连,将2颗Blackwell GPU + 4 个die + 1颗ARM Grace CPU连接得到的超级芯片,具备16TB/s的HBM、3.6TB/s的显存带宽。计算性能上,在新的FP4精度下可达到40PFLOPs的AI算力,是上一代产品H200在FP8精度的5倍。超级计算机GB200 NVL72:训练和推理性能跃升,能耗成本大幅下降。英伟达在会上发布了通过第五代 NVL互连的72颗Blackwell GPU、36颗Grace
CPU以及 BlueField-3 DPU 组合而成的服务器GB200
NVL72,在新的FP4精度下推理算力高达1440PFLOPs,FP8精度的训练算力高达720Pflops,传输量最大达到 260TB/s,几乎相当于一个超级计算机集群。GB200 NVL72 在训练和推理方面相比上一代均实现大幅提升:训练性能高达 GH100 的4倍,推理性能提升至30倍,成本与能耗降低25倍。对了,B200采用了新的架构Blackwell,这个架构带来的潜在算力提升,和上一代相比大致呈现一个指数上升状态(图看不清请点击放大并横屏,下同):原则上,靠着Blackwell,英伟达至少可以把超级计算机在训练和推理方面的能力提升十倍以上。这次的新芯片B200之所以只把芯片算力提升了4倍,只是因为皮衣黄在向苹果的彩虹男库克学习,隔两年就发布一款新产品,通过挤牙膏来割韭菜——这被游戏玩家称为“老黄的刀法”。CUDA(Compute
Unified Device Architecture,统一计算架构)是由NVIDIA推出的一种软硬件整合技术,是该公司对于GPGPU(通用计算在图形处理器上)的正式名称。通过这个技术,用户可以利用NVIDIA的GPU进行图像处理之外的运算。与CPU不同,GPU以较慢的速度并行执行大量线程,而不是快速执行单一线程。通过CUDA技术,人类可以将GPU的内部处理器用作线程处理器,以解决数据密集型计算问题。具体来说,CUDA允许研究人员和软件开发人员将C、C++和Fortran代码直接发送到GPU,而无需使用汇编代码。这使他们能够利用并行计算,在同一计算中同时执行数千个任务或线程。CUDA技术使GPU(显卡)成为类似于PhysX物理加速芯片的通用处理单元,可以被用来进行图形渲染,物理模拟(例如碎片、烟雾、火焰、流体等效果),也可以被用来做计算生物学、密码学等领域的非图形应用。如今,CUDA 工具包已迭代 12 个大版本、数十个小版本,广泛用于天文学、生物学、化学、物理、数据挖掘、制造、金融以及人工智能等领域的 GPU 加速应用程序。简而言之,CUDA让人类可以不仅可以用GPU来进行图形处理(比如做游戏显卡),还可以在GPU上进行通用计算,这种技术创新被称为GPGPU。CUDA 具备低成本、兼容高、生态广、具有排他性等多重优势。CUDA 本身免费,安装过程简洁明确,开发者几乎无需承担任何额外成本。CUDA 采用当时已经流行的 C/C++语言作为编程语言,提供大量的高性能计算指令开发能力,开发者学习门槛低,使用效率高。同时,程序员也可以使用其他编译器指令和多种编程语言扩展来操作CUDA平台。例如,Fortran程序员可以使用CUDA Fortran或PGI公司的PGI
CUDA Fortran编译器进行编译。此外,CUDA平台还支持其他计算接口,如Khronos Group的OpenCL、Microsoft的Direct Compute以及C++AMP。在培养生态方面,当时 NVIDIA 决定让消费级及高端级 GPU 均支持 CUDA 开发,最大限度推广 CUDA 生态。由此,所有G8x系列及以后的NVIDIA显卡都支持CUDA技术,包括GeForce、Quadro和Tesla系列。CUDA与大多数标准操作系统兼容。根据二进制兼容性,基于G8x系列开发的程序无需修改即可在未来所有的NVIDIA显卡上运行。根据 Nvidia2022 年年报,全球有 380 万开发人员使用 CUDA和其他软件工具来帮助公司在目标市场部署其技术。同时,英伟达公司通过Inception 项目与数百所大学和 13000 多家初创公司合作,传播人工智能。此外,英伟达的深度学习研究所提供有关如何使用其加速计算平台在应用程序中设计、训练和部署神经网络的最新技术的指导。CUDA虽然免费,但是全球各地程序员只能在英伟达显卡上利用CUDA进行通用计算加速——这类似于买电脑送WINDOWS。总之,CUDA是一项强大的软硬件融合技术,类似于苹果APP STORE, 让全球程序员可以充分利用GPU的计算能力,加速各种应用程序的运算过程。和苹果不一样的是:APP STORE 是程序员面对用户开发程序,用户在苹果商店下载。CUDA是程序员用来做各种通用计算,包括训练模型,搞推演。行文至此,我们就可以做个小结和推演:在AI的硬件方面,神州要想超越米帝,至少有四个门坎要跨越,所需要的时间至少也要十年。即使我们认为神州自主量产7纳米芯片为真(据说成品率并不高),根据以前的经验,距离量产4纳米制程芯片也还需要至少5年时间:即使量产4纳米芯片,也造出了GPU,神州还需要培育一个上万亿人仔市场的产业来养着相关的公司——英伟达发明了显卡,这句话是很有含金量的。这意味着整个游戏市场几千亿美金,大部分都被英伟达占有,并被英伟达用来做新技术研发和产品升级换代。这个万亿市场,至少也需要10年时间爱来培育(真实的PC游戏市场至少花了25年时间来培育)。即使神州对游戏业完全放开,培育出上万亿人仔的游戏市场,要发展出一个类似于CUDA的软硬件融合技术,最快也需要5年时间——因为CUDA这种平台的培育需要的是大量程序员在上面做贡献,只能靠着时间来做工作。即使神州人像是做出鸿蒙一样做出了自己的CUDA,也不要指望英伟达会止步不前——芯片制造的摩尔定律或许到了2纳米或者1纳米就失效了。但是皮衣黄又提出了,后摩尔时代的“黄氏定律”(Huang's Law)。他在英伟达领导的一个300多人团队,过去10年协助单一GPU的AI推理效能提升1000倍:黄仁勋由此预测,利用GPU的组合,英伟达仍然可以在未来至少十年内让下一代超级新芯片和超级计算器的推理能力和计算能力相比上一代实现指数级别的增长:意味着神州的AI公司至少在未来十年内,无法超过英伟达最新的AI芯片技术——而十年时间,足够英伟达和苹果一样继续独霸整个市场,并建立起更深的护城河。神州即使以举国之力研发芯片,也无法坚持这样长时间的没有任何市场回报的投入(每年至少要投入上千亿人仔,坚持几十年)。毕竟神州国内的土地财政收入这几年已经从最高峰下滑了至少70%。综上所述:即使我们认为造出4纳米制程的GPU,培育上万亿的游戏/AI市场,发展出类似于CUDA的软硬件融合平台可以同时进行,也需要10年时间才会达到英伟达目前的水平——而英伟达本身的GPU制造还会以指数级别的速度进步,要追上英伟达的脚步,这个时间就难以估计了。行文至此,我们就可以回答开头提出的问题:由于文生图模型的技术也就是一两年前才成熟,文生音乐模型刚推向市场,文生视频技术才刚出现,所以在AI应用层的差距,神州和米帝似乎确凿只有1-2年。然而,在AI的硬件基础层面,即使神州可以同时进行多线程任务——a)造出4纳米制程的GPU,b)培育上万亿的游戏/AI市场,c)发展出类似于CUDA的软硬件融合平台可以同时进行,也需要10年时间才会达到英伟达目前的水平。不过,由于英伟达本身的GPU制造还会按照黄氏定律以指数级别的速度进步,要追上英伟达的脚步,这个时间恐怕难以估量。简而言之,中美在AI应用层面或许只有两年差距,硬件基础层面的差距至少有十年以上。而且,中美在AI应用层面会只有两年差距,那是因为米帝故意保持了这个差距——现在英伟达仍然会把芯片卖给神州,不过算力给降低了8成:神州公司用降低八成算力的芯片来训练纯文本大模型没有问题(比如KIMI),训练文生图模型就显得很拉跨(文心一言),至于训练文生音乐模型和文生视频模型,目测是Mission Impossible. 于此同时,英伟达已经将华为认定为其最大对手,最近的芯片禁运升级,估计就是针对的华为:如果禁运继续升级,这两年的差距随时可能被拉大到10年以上。比如现在的俄罗斯人,由于遭受制裁,不但买不到算力降8成的AI芯片,就连普通的游戏显卡和因特尔的CPU都买不到。要通过中立国家买的话,价格至少要翻3倍。俄国AI产业和米帝的差距,一下拉大了10年以上。1)AI会不会和互联网泡沫一样,最后变成一个大泡沫?答案是肯定的,但不是现在。最起码,现在Midjourney已经开始盈利,财迷现在每天都在用微软的copilot来进行工作:另外,我们几乎确定的是:游戏产业和影视动漫产业将会迎来巨大的革命——影视/动漫/游戏制作的门坎会大大降低:更不要提AI在实体企业已经开始得到应用:客制化正在进入到企业端。许多公司将拥有数百个使用专有数据的客制化应用程序,以适应其业务的各个部分。各国只需几百个加速运算节点,就能够快速建置高效率、高效能、百万兆级(exascale)人工智能超级计算机。另外,AI在医学方面的技术进步现在就足以让各个医院的放射影像科医生下岗,假以时日,有可能也足以让颜宁这种研究重要膜蛋白的结构与功能机理的科学家失业。对了,AI在军事方面估计也会带来更多的进展——无人机+无人舰艇+AI的未来战争模式在乌克兰战场已经初具雏形。由此,我们似乎确凿可以说:AI现在是真的可以让全社会的劳动生产率上升,并为相关公司带来盈利的——这个和互联网泡沫时代建一个.com网站,没有任何盈利就能吸引大量股民投资,还是不一样的。2)虽然现在英伟达的股价已经很高了,但在未来五年内仍然有一定上升空间。就财迷所知,英伟达的芯片至少在最近5年会一直供不应求,因为所有的大厂都在展开“AI军备竞赛”,光是文生视频软件Sora,就需要72万块H100芯片,或者说18万块B100芯片:而光是文生视频领域,就有Runway、Genmo 和 Pika 等公司在和Sora竞争。还不要说文生图领域和文生音频领域。3)各位看完别沮丧,不仅仅是神州无法超过英伟达,就连米帝自己的其他大公司要想超过英伟达,就目前看也仍然是不可能的任务。面对OPEN AI携手微软的崛起,就连美股的股王苹果也坐不住了。苹果直接撤掉了新能源车项目,将所有资源投入到了通用大模型。至于META和谷歌,也都在OPEN AI后面亦步亦趋:这就是市场的力量——规模再大的巨无霸公司,在技术方向上稍有失误,就会被新公司弯道超车。当然,这也是一种福音——各家AI公司的充分竞争,必然会给消费者带来更好的使用体验,也能够提升整个社会的劳动生产率。只可惜,由于众所周知的原因,神州人基本上用不到这些AI公司的产品,由于大部分人并不会“合理上网”使用这些AI工具,所以很多人神州人只能与AI时代擦肩而过。最多只能和财迷一样,投资这些公司,从中挣一点小钱。最后,喜欢财迷文章,想了解更多?请在微信里关注公号“JLTCM2016”,或长按扫描下列二维码:同时,为防止失联,还请关注公号:“九龙塘月兑之家”作为备份。此号将在未来每月推出一篇有趣的润(yi)学(min)视频,同时也会把一些原创文章发这里:各位还可以在微博、知乎、雪球、推特中关注ID:“九龙塘右眼财迷”。财迷会在这些平台同步发文。各位也可以在B站(境内)和油管(海外)关注财迷的视频号:九龙塘右眼财迷。财迷暂定会每月发布一期视频。各位想要了解财迷自己的投资动向(我会把个人投资记录经过处理后发到朋友圈)或者问财迷各种问题,请加财迷微信CMXHHK20(这个号也是用来防止失联的)。同时,财迷也会在朋友圈分享一些即时的经济信息(已经加过财迷旧微信号的读者请勿再加,新号旧号内容都一样,否则会被拉黑)。财迷文三俗内容多,各位想要了解财迷分享的往期被删文章,可以从公号下“鼓瑟吹笙”一栏进入财迷QQ群观看。