迈向 Z 级计算：Cloud4Science 范式加速科学发现进程

文摘 2024-12-27 16:29 北京

传统超级计算机作为科学计算的核心支柱，在推动技术进步方面发挥了不可替代的作用，但随着科学智能时代下需求的多样化和复杂化，其扩展性和能效的局限逐渐显现。

针对这一挑战，微软亚洲研究院的研究员提出了 Cloud4Science 的新范式，以云计算、人工智能和高性能计算技术的深度融合为核心，重新定义科学计算的架构，加速科学智能的研究进展。在此框架下，研究员们已对关键科学计算算法如 Stencil、FFT、SpMV 等进行了优化，并成功开发了一系列创新算法，为科学家利用云计算及人工智能平台进行科学计算和研究开辟了新的途径。相关工作已连续发表在 SC、PPoPP 等高性能计算与并行计算领域顶会，并获得了 PPoPP’24 唯一最佳论文奖。

作者 | 微软亚洲研究院

出品 | AI 科技大本营（ID：rgznai100）

在刚刚落幕的国际超算大会 SC’24 上，最新揭晓的戈登贝尔奖获奖应用成功突破了 E 级计算的瓶颈，标志着超级计算机应用正式迈入下一个关键阶段——万 P 级计算（每秒千亿亿次浮点运算）。作为高性能计算（HPC）的巅峰代表，超级计算机长期以来一直是推动科学和技术进步的重要力量。

科学计算作为超级计算机的核心应用领域，利用其强大的计算能力，通过数值模拟、数据分析和数学建模，旨在解决科学、工程和技术中的复杂问题，在揭示自然规律、预测未知现象以及推动技术创新中发挥着不可或缺的作用。

然而，随着科学智能（AI for science）时代的到来，超级计算机在追求更高性能的同时，也面临着一些新的挑战：

架构碎片化：各超算系统采用不同的硬件架构和编程模型，科学应用需要复杂的定制化适配才能运行。这不仅限制了科学应用的多样性，还难以兼顾传统科学计算与智能计算的双重需求。
开发难度高：科学智能时代强调多学科、多技术领域的交叉与协作。不同的超级计算机架构不仅增加了软件开发和维护的复杂度，开发者还需要不断重新学习并掌握跨领域的专业知识，阻碍了科学研究的灵活性和快速推进。
能耗与成本压力：当前 E 级超算每年耗电可达上亿度，未来 Z 级超算能耗可能更高。同时，系统更新换代成本巨大，应用需重新设计和部署，进一步增加了科研投入的时间和经济成本。

“传统科学计算的优势在于数值求解，通过高精度计算模拟复杂的物理过程。然而，随着问题规模的快速扩大和计算复杂度的持续攀升，单纯依赖数值求解的模式难以充分释放未来万 P 级甚至 Z 级超算的全部潜力。”微软亚洲研究院高级研究员李琨表示，“科学计算正在从传统数值求解向融合知识推理的科学智能转型。通过将高性能计算技术与未来的 Z 级算力结合，全面支撑科学智能时代对极限计算和智能推理的双向扩展需求，才会为更多突破性发现提供全新的可能性。”

Cloud4Science 范式加速科学计算进程

为了应对这些挑战，微软亚洲研究院的研究员提出了 Cloud4Science 范式，希望通过融合现有的云基础设施、人工智能和高性能计算技术，重塑科学计算的模式。这一范式为传统超算范式提供了有效的补充，也为科学智能提供了一种更加灵活、高效且可扩展的解决方案。

“Cloud4Science 范式通过将科学计算任务迁移到云平台或人工智能架构上，实现了计算架构的统一，降低了科学计算的访问门槛。”微软亚洲研究院首席研究员曹婷表示，“这使得科研人员能够在单一平台上使用多种算法和应用，同时，云平台和人工智能的强大算力也将大幅提升科学计算效率，为未来的科学研究与计算应用开辟新的可能性。”

为了实现 Cloud4Science 范式，研究员们计划分两个阶段来推进：

Cloud4Science：融合云计算、AI 与高性能计算，驱动科学智能新未来

第一阶段是以问题为导向，从算法角度对传统科学计算进行迁移，确保这些计算任务能够在云计算或人工智能硬件架构上顺利运行。这一阶段的核心任务是将经典的科学计算算法，如 Stencil、FFT（快速傅里叶变换）、SpMV（稀疏矩阵-向量乘法）等，转换为基于矩阵乘法的计算模式，以便充分利用云计算和人工智能的强大计算能力。通过这一转化，传统科学计算算法的性能得以显著提升，同时大幅降低了科学应用对硬件适配的复杂性，并为下一步科学计算的智能化奠定了基础。

第二阶段的目标是推动科学计算算法与人工智能的深度融合。传统的科学计算算法更注重数值计算，而科学智能则强调推理能力的提升。科学计算模型与大语言模型虽然在某些方面可以互相借鉴，但二者之间存在显著差异。科学计算模型通常包含大量的物理信息和生物信息，这些专业知识需要被有效地整合到算法设计中。因此，这一阶段的任务是设计融合传统科学计算模型与人工智能技术的创新解决方案，通过人工智能技术有效整合领域知识、生成洞见并促进科学创新，充分利用云原生和人工智能原生架构的优势，进一步推动 Cloud4Science 范式的发展。

传统科学算法向云计算与人工智能硬件的无缝迁移

目前，第一阶段的研究目标已经基本完成，即实现传统科学计算算法向云计算和人工智能硬件的无缝迁移。研究员们从 Stencil 算法入手，设计了全新的算法 Jigsaw 和 ConvStencil，将 Stencil 算法向量化并重新张量化成矩阵乘法模式，使 Stencil 算法成功映射到 Tensor Core 等人工智能加速器硬件单元。随后，研究员们又引入了人工智能驱动的低秩适应（Low-Rank Approximation，LoRA）技术，进一步优化 Stencil 性能，推出了 LoRAStencil 以及融合三种经典算法的 FlashFFTStencil，这些创新让多种科学计算算法能够更高效地部署在人工智能加速单元上，实现性能的显著提升并同时降低了硬件适配的复杂性。

扩展矩阵计算边界，连接科学与 AI 硬件

为突破科学计算的性能瓶颈，研究员们提出了 ConvStencil [1]，通过将传统的科学计算算法映射为矩阵乘法，进一步扩展了矩阵计算的应用边界，为科学计算与 AI 硬件的高效协同奠定了坚实基础。基于 Stencil 算法与人工智能领域广泛应用的卷积计算模式有着相似之处，研究员们专门开发了一套针对 GPU Tensor Core 的优化算法，使得其能够充分利用 Tensor Core 强大的矩阵计算能力。通过引入布局转换与冲突消除机制，ConvStencil 不仅显著提升了科学计算与云计算及人工智能硬件的兼容性，还促进了科学计算从传统的 CPU 计算向现代 GPU 计算的顺利过渡。

基于矩阵乘法的 ConvStencil 计算系统（PPoPP’24 唯一最佳论文奖）

为了实现内存访问效率的大幅提高，研究员们在 ConvStencil 的基础上设计了 LoRAStencil [4]，通过融入 LoRA 技术，巧妙地结合了数据的低秩特征与计算需求。利用分解权重矩阵，优化数据的加载与复用过程，LoRAStencil 有效减少了不必要的内存访问，解决了维度残差问题。实验评估显示，LoRAStencil 相比现有技术，性能提升最高可达2.16倍。LoRAStencil 为在 Tensor Core 单元上实现高效的张量化 Stencil 计算开辟了新的途径，使其在科学计算中能发挥更大作用。

尽管 Tensor Core 单元在处理人工智能任务时表现出色，但在处理如 Stencil 这样涉及大量稀疏数据的高性能计算算法时，仍面临计算资源利用率不高和内存带宽受限的问题。为了解决这些挑战，研究员们创造性地将 Stencil、FFT 和矩阵乘法三种经典科学计算算法融为一体，提出了更为高效的 FlashFFTStencil 计算系统 [3]。实验结果证实，FlashFFTStencil 实现了无稀疏性的边界转换，其性能较现有最先进的技术平均提升了2.57倍。FlashFFTStencil 在实现了多种科学计算算法统一的同时，还成功地将这些算法与 Tensor Core 单元等先进的人工智能硬件连接起来，为科学计算的未来发展提供了新的可能性。

基于全稠密矩阵计算的 FlashFFTStencil 系统

时空数据向量对齐，提升 CPU 计算效率

Jigsaw 算法 [5]专注于 Stencil 算法的向量化，通过采用基于通道的蝶形向量化、基于奇异值分解的维度展平（SVD-based Dimension Flattening）技术以及基于迭代的时间合并策略，有效解决了空间和时间维度上的数据对齐冲突（Data Alignment Conflict, DAC）问题，大幅提升了科学计算在 CPU 上的效率。实验结果显示，在多种测试环境中，Jigsaw 相对于当前最先进的技术平均实现了2.31倍的加速效果，适用于广泛的 Stencil 内核。

在此基础上，研究员们还对另一种重要的科学计算算法——稀疏矩阵-向量乘（Sparse Matrix-Vector Multiplication, SpMV）进行了深入优化，提出了 VNEC 算法 [6]。这是一种创新的 SpMV 存储格式，旨在优化数据局部性和向量化操作，同时缓解现有算法的局限性。VNEC 通过剔除冗余列和改进数据局部性，大幅度减少了内存访问开销，增强了向量计算的效率。实验表明，在多核处理器环境下，VNEC 在 x86 CPU 上相较于标准 MKL SpMV 例程最高实现了 6.94 倍（平均 2.10 倍）的加速，在 ARM CPU 上的加速比最高可达 5.92 倍（平均 1.73 倍）。由于 VNEC 格式转换的预处理成本较低，特别适用于实际的迭代应用场景，展现出了极高的实用价值。

Cloud4Science 范式在量子化学中的实践探索

为了验证 Cloud4Science 范式能否为科学计算带来更好的性能提升，微软亚洲研究院的研究员们与微软研究院科学智能中心（Microsoft Research AI for Science）团队合作，共同开发了一种端到端的优化编译器 EPT（Elastic Parallel Transformation）[2]。利用弹性并行转换技术，EPT 可以把传统的科学计算算法，特别是从头算量子化学计算，自动适配至 GPU 架构。因此，EPT 能够将复杂的量子化学问题分解为适合并行处理的单元，优化任务的划分粒度，并生成专为 GPU 架构优化的高效计算内核。

弹性并行转换（EPT）编译器系统框架图

通过在多种 GPU 硬件（如 NVIDIA V100、A6000、A100 等）上对13种具有代表性的分子进行测试，实验结果显示，EPT 在保证从头算精度的前提下，相较于现有的顶级 CPU 和 GPU 解决方案，性能分别提升了高达34.90倍和9.89倍。通过 Cloud4Science 范式，量子化学研究的计算效率和精度得到了显著提升，这为加速新材料开发、药物设计和基础科学探索提供了坚实的技术基础。

Cloud4Science 范式推动 HPC 领域变革，加速科学研究发现

在科学研究迈向智能时代的进程中，矩阵计算正逐渐成为连接传统数值计算与科学智能的关键桥梁，而 Cloud4Science 范式凭借其 Z 级计算潜力，不但为科学在时间和空间尺度上带来了质的飞跃的可能，同时也为科学计算向智能化与推理驱动方向的演进注入了动力。以量子化学为例，Cloud4Science 不仅能缩短计算周期，将复杂分子相互作用的模拟时间从数年压缩至数周甚至数天，还能通过矩阵计算与 AI 推理的融合，使得系统能够基于海量计算数据进行模式识别与智能推理，例如预测药物分子与蛋白靶点的相互作用趋势，自动发现可能的抗性突变路径。

正如个人计算机从单机时代迈入云计算时代，彻底革新了信息处理的广度与效率，未来 Cloud4Science 范式的成功应用也有望在人工智能时代为高性能科学计算带来新的变革。通过融合云计算的可扩展性、AI 的智能决策能力以及高性能计算技术，Cloud4Science 将在未来迈向 Z 级计算的过程中，实现科学计算在极限求解与智能推理两大方向的双向突破，赋予科学智能更强的灵活性、更高的效率与更广泛的可扩展性，为科学研究带来新的创新动力与发展空间。

“Cloud4Science 新范式将显著降低高性能计算基础设施的开发成本，并提升其对科研人员的易用性。尤其是对于那些资源有限的小型研究团队或初创企业而言，这一范式将赋能他们获取 E 级乃至万 P 级科学计算的潜力。这意味着更多的科研工作者可以参与到之前仅限于顶尖机构和大型企业才能涉足的前沿科学计算研究中，极大地拓宽了科学研究的边界，加速科学发现的步伐。”曹婷表示。

相关链接：

1. [PPoPP'24, [Best Paper Award]] Yuetao Chen, Kun Li *, Yuhao Wang, Donglin Bai, Lei Wang, Lingxiao Ma, Liang Yuan, Yunquan Zhang, Ting Cao, Mao Yang. ConvStencil: Transform Stencil Computation to Matrix Multiplication on Tensor Cores.

https://doi.org/10.1145/3627535.3638476

2. [To be appeared] Tuowei Wang, Kun Li *, Donglin Bai, Fusong Ju, Leo Xia, Ju Ren, Yaoxue Zhang, Ting Cao, Mao Yang. Matryoshka: Optimization of Dynamic Diverse Quantum Chemistry Systems via Elastic Parallelism Transformation.

https://arxiv.org/abs/2412.13203

3. [PPoPP'25] Haozhi Han, Kun Li *, Wei Cui, Donglin Bai, Yiwei Zhang, Liang Yuan, Yifeng Chen, Yunquan Zhang, Ting Cao, Mao Yang. FlashFFTStencil: Bridging Fast Fourier Transforms to Memory-Efficient Stencil Computations on Tensor Core Units.

https://www.likun.tech/pdf/ppopp25_FlashFFTStencil.pdf

4. [SC'24] Yiwei Zhang, Kun Li *, Liang Yuan, Jiawen Cheng, Yunquan Zhang, Ting Cao, Mao Yang. LoRAStencil: Low-Rank Adaptation of Stencil Computation on Tensor Cores.

https://doi.org/10.1109/SC41406.2024.00059

5. [PPoPP'25] Yiwei Zhang, Kun Li *, Liang Yuan, Haozhi Han, Yunquan Zhang, Ting Cao, Mao Yang. Jigsaw: Toward Conflict-free Vectorized Stencil Computation by Tessellating Swizzled Registers.

https://www.likun.tech/pdf/ppopp25_Jigsaw.pdf

6. [IPDPS'24] Luhan Wang, Haipeng Jia, Lei xu, Cunyang Wei, Kun Li , Xianmeng Jiang, Yunquan Zhang. VNEC: A Vectorized Non-Empty Column Format for SpMV on CPUs.

https://ieeexplore.ieee.org/document/10579118

▶ AI 叛乱打响第一枪！Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

▶ 技术专家和神父在梵蒂冈研讨 AI！MIT 教授当场放教皇深伪视频，现场炸锅

“AI 会取代程序员吗？”——这个问题如今愈发令人困扰。伴随着 Cursor 等 AI 编程助手爆火，面对日新月异的技术，不少开发者感到迷茫：未来的程序员究竟该何去何从？是被 AI 取代，还是与 AI 共舞？在这个充满变革与机遇的时代，我们需要重新思考软件开发的未来。为此，CSDN 特别策划推出了最新一期特刊：《新程序员 008：大模型驱动软件开发》。

读过《新程序员》的开发者曾这样感慨道：“让我惊喜的是，中国还有这种高质量、贴近开发者的杂志，我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容，这些内容既真实又有价值。”

能学习到新知识、产生共鸣，解答久困于心的困惑，这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。

AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

最新文章

马斯克：3年内我要造50万机器人，人形机器人会让钱失去意义 | AI 2025

英伟达黄仁勋最新访谈：CES 2025 揭秘 AI 与计算的未来蓝图

Anthropic四大专家“会诊”：实现深度思考不一定需要多智能体，AI完美对齐比失控更可怕！

伯克利对齐大师罗素：AGI 会让地球上所有人达到西方中产阶级的生活水平，全球 GDP 将增长约 10 倍 | AI 2025

谷歌新动作！Sora前负责人带队打造“现实世界模拟器”，AI领域再掀波澜

智源发布2025十大AI技术趋势：从Agent到Agentic AI

黄仁勋：英伟达引领机器人行业革命，未来人人都能有超算 | AI 2025

奥特曼开启 AGI 倒计时：很快搞定核聚变，第一批智能体会在今年加入劳动力队伍 | AI 2025

强化学习上大分！清华团队训练出数学推理超越 GPT-4o 的 7B 模型

2025 年，大模型会有哪些新变化？

Agent 炒作一年仍未落地，99% 不懂 AI 的人和剩下 1 % 产生了鸿沟 | AI 2025

昆仑万维周亚辉：人形机器人时代，中国新首富会是张一鸣、雷军或王兴

IBM 八大专家预测：现代编程语言是给人类设计的，AI 需要类似汇编的原生语言 | AI 2025

谷歌前 CEO 施密特：AI 将在今年获得“永久记忆”，2028 美国会耗尽能源储备 | AI 2025

硅谷神预言家库兹韦尔：科技每年将为人类增加一年寿命，2032 年之后实现“倒流” | AI 2025

图灵奖得主杨立昆：统治欲望源于生存需求，而非智能水平，AI 不会有这种想法 | AI 2025

英伟达千万投资后，27 岁 CEO 豪言：前端工程师三年内消失，700 天后数学家失业

迈向 Z 级计算：Cloud4Science 范式加速科学发现进程

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

一位数学家的“现身说法”：OpenAI「王炸模型」o3 ，到底会不会做数学题？

AI 在谷歌，偏偏搜不对。

AI PC 革命已然「夭折」？分析师曝：智能手机和 PC 的“超级周期”难以到来！

“警告：依赖 AI 代码生成，你的编程之路或将越走越窄！”

“AI教父”杨立昆：批评马斯克是因为他先攻击了科学家；现有训练方式永远实现不了人类水平 AI

AI 叛乱打响第一枪！Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

不花钱！程序员编码神器GitHub Copilot免费可用，每月限额2000次代码补全、50条聊天信息

C++ 之父 2024 年末重磅演讲 | 重新认识 C++：跨世纪的现代演进

苹果 AI 遭遇「滑铁卢」？73% 用户直言：Apple Intelligence 几乎没用！

倒计时1天！算法还可以这样学，来直播间免费抽《漫画算法》！

融资百亿美元后，Databricks CEO 警告：AI 泡沫已到顶，许多初创公司徒有其表

对标Sora，Google发布更强大的Veo 2视频生成模型！

“停止雇佣人类”的广告，席卷旧金山！背后 CEO 放话：只有非科技行业的人会感到不满

被「淹没」在AI编写的漏洞报告中，Python安全开发者怒斥：不要再依赖AI工具了！

AI 裁员潮下，为什么高薪岗位比基层更危险？

诺奖&图灵奖双料得主 Geoffery Hinton：“AI 质疑者一错再错，未来还会继续被打脸”

回顾 Sora 20 分钟发布会！Sam Altman：“视频生成已经进入了 GPT-1 时刻”

OpenAI量子计算大神Scott Aaronson：“我不理解为什么有人能自信看衰 AI”

C++之父领衔、海内外大咖齐聚，全球C++及系统软件技术大会圆满收官

C++之父独家回应白宫安全禁令，全球C++及系统软件技术大会盛大开幕

CSDN与华为联合发布新一代AI编程工具InsCode AI IDE ，引领智能编程新时代

搞崩 ChatGPT 的一个神秘名字，David Mayer 究竟是谁？

还剩3天，C++ 之父年末演讲：开发者应该“重新认识”C++！

程序员离不开的数据结构和算法，为什么大多数人都不会？

加速算力价值释放！第三届“移动云杯”总决赛圆满落幕

LeCun改口：5-10年就能实现AGI；马斯克预开发AI游戏 | AI头条

AI 创业水太深，“卷”了 20 个月的天才科学家连夜逃回谷歌？

清华&面壁提出新一代主动 Agent 范式！AI 从此拥有主观能动性

优惠倒计时 3 天！2024 全球 C++ 及系统软件技术大会全日程正式发布

“我已经厌倦了 AI ！”

BAT、字节、昇腾、小米等12大技术专家齐聚，深度解析AI编程与大模型应用创新！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉