英伟达 B200GPU 推理加速促进AI 图像应用的普及

文摘   科学   2024-03-20 21:55   北京  

all in camera QQ 2 833282006 ww.dahuachengxiang.com   微信群请先加 zxzombie

线

python cmos sensor42

https://shop322456667.taobao.com/


经过两年的等待,英伟达终于官宣了新一代Blackwell架构,它被誉为“新工业革命的引擎”,旨在“将AI扩展到万亿参数”。

新推出的GPU架构“Blackwell”,得名于美国数学家David Harold Blackwell,它的代表芯片B200采用了台积电4NP制造工艺。英伟达声称,这一架构能够支持在十万亿级参数的模型上进行AI训练,以及实时的大语言模型(LLM)推理。B200由两个超大型Die组合而成,拥有超过2080亿个晶体管,是前代产品800亿个晶体管的两倍多,并配备了192GB高速HBM3e显存。


根据英伟达的说法,基于Blackwell架构的B200处理器,为人工智能领域带来了巨大的性能提升。其AI计算性能达到每秒20千万亿次浮点运算,是之前最强大的H100每秒4千万亿次浮点运算的五倍。这样的系统能够部署一个27万亿参数的模型,而现阶段OpenAI的GPT-4据称使用了大约1.76万亿个参数。

我第一眼看到这款显卡时,也想拥有一块。如果还有其他愿望,那就是拥有64块8X8的配置。

除了上述硬件特点外,更吸引我的是将两个B200与单个Grace CPU结合使用的GB200系统,它能为LLM推理工作负载提供30倍的性能提升,并显著提高效率。与H100相比,GB200的成本和能耗降低了25倍,这个数字实际上比运算数量的五倍还要多。


英伟达介绍说,这款全新的芯片的一大改进是采用了第二代Transformer引擎,它在每个神经元上使用4位(20 petaflops FP4)而不是8位,从而将计算力、带宽和模型参数规模提升了一倍。训练性能提升至2.5倍,FP4精度的推理性能是上一代FP8的五倍;同时,升级到第五代NVLink后,互连速度是Hopper的两倍,可扩展到576个GPU,有效解决了万亿参数混合专家模型的通信瓶颈问题。

从使用的角度看,推理性能的需求往往超过训练。训练主要发生在开发过程中,而大型模型的实际部署和应用则代表了另一个量级的挑战。以最近广受讨论的Sora为例,它被视为视频生成技术的里程碑。但其实际应用尚未普及,一个可能的原因是推理算力的不足,很多人估计需要多块 H100 训练多个小时。希望B200的推出能够在图像大模型领域展现出更好的性能。


由于缺乏开源和公开测试,对于Sora所需算力的评估仍然是基于假设的。

一些专家根据“Scalable Diffusion Models with Transformers”的研究推测,生成一分钟视频可能需要多张H100显卡超过一个小时的渲染时间。虽然最近演示的20秒720P视频只用了几十秒时间,但我们知道演示结果并不总是完全可信。

据DiT模型的创始人谢赛宁博士粗略估算,Sora模型的参数规模大约为30亿。基于海外大型视频网站每分钟上传500小时视频内容的研究成果,估算训练Sora模型需约7.09万张H100显卡的一个月训练时间。在推理方面,生成一张图像的计算消耗大致相当于生成256个词,推导出生成一分钟视频的算力消耗是一次文字对话的千倍以上。

以国内开源的Open-Sora项目为例,其复现过程中使用了64块H800显卡。训练的第二阶段消耗了2808 GPU小时,成本约7000美元,而第三阶段消耗了1920 GPU小时,成本约4500美元。初步估算显示,整个训练方案的成本控制在1万美元左右。


从推理成本来看,Sora的算力成本理论值高达GPT-4的2000倍。考虑到扩散模型去噪过程的多步迭代和视频一致性问题的长token一次性输出需求,Sora的推理成本极高。当前主流GPU配置下的推理能力可能不足以支持这种负载,表明文生视频模型的推理可能需要更大规模的AI芯片集群。如果GPU的推理速度能提升数十倍,Sora等模型将更快被广泛使用。

在图像和视频生成方面,推理速度直接影响成本,最终影响性价比。未来推理加速的技术进步将直接决定AI视频应用的性价比。因此,许多研究正在致力于推理加速,特别是那些专门设计用于推理而非训练的嵌入式芯片。


算力是AI发展的关键限制。随着技术进步和AI算力需求的增加,AI算力的芯片成本有望降低。曾经,FPGA价格昂贵,但微软在数据中心大规模部署FPGA时,大量订购使得单价大幅下降。随着产量的增加,芯片成本有望进一步降低。

然而,能源也是AI发展的一个重要制约因素。当前,所有数据中心的能耗已占到全人类能源消耗的1%至2%。如果AI算力的能源消耗增长到人类能源消耗的10%,则所需的AI芯片将远超过台积电等芯片制造商的生产能力,这提出了巨大的挑战。因此,如何在不显著增加能源消耗的情况下提高算力,是当前面临的一个关键问题。

在过去的八年中,AI算力的需求实现了惊人的1000倍增长,这一趋势在AI技术发展的强烈驱动下预计将持续增长。这种持续的需求增长不仅是AI技术进步的体现,也是各行各业越来越依赖AI解决方案的结果。AI算力的提升对于AI成像和图像处理领域尤为关键,它将极大地推动这些技术的进步和应用。

目前的 AI 算力某种程度还是还是 AIISP 和图像视频应用的主要瓶颈,很多算法的开发和测试的成本和时间还都很长。以一个视频的转绘的后处理流程为例在目前 4090 上最好的情况几秒的视频也需要几分钟进行算法处理。这距离真正 AIISP 的 pipline 的复杂程度还很远

随着算力的提升,AI成像技术将能够处理更高分辨率的图像,实现更复杂的图像分析和处理任务,比如高精度的医疗成像分析、实时的视频编辑以及更加智能的视觉识别系统。同时,这种算力的增长也将使得AI图像处理技术更加精细和高效,能够实现更加复杂的图像修复、风格转换、以及增强现实(AR)和虚拟现实(VR)等应用中的实时图像渲染。



此外,算力的增长还意味着能够训练更大、更复杂的模型,这些模型可以处理更广泛的数据类型和更复杂的任务,从而开启新的AI应用领域,如自动化创意设计、深度伪造检测和先进的交互式娱乐体验。这将进一步加速AI在各个行业的渗透和应用,推动技术创新和经济增长。

因此,我们不仅预见到算力需求的持续增长,还看到了这种增长对AI成像和图像处理领域带来的广泛影响,它将为这些领域带来前所未有的进步和发展机遇。随着算力的不断提升,AI技术将进入一个新的高速发展阶段,为社会带来更多的价值和变革。


大话成像
希望通过这个公众号传播我们所掌握的有关成像技术软件、硬件、算法等方面的知识,分享我们在成像领域,尤其是手机成像领域所拥有的一些知识和开发经验。以期集合众智互有裨补,让在这个领域工作的朋友能够彼此交流共同提高。
 最新文章