首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

他用一个CUDA核心打败了英伟达cuBLAS！

旅行 2024-12-02 06:00 北京

从零开始手写CUDA矩阵乘法，竟敢叫板cuBLAS？

一位开发者用单个CUDA核心实现了超越cuBLAS 7%性能的壮举！

这听起来不可思议？

但这确实发生了。一位名叫Pranjal的开发者，在H100 GPU上实现了这个惊人的突破。

从零开始的挑战

Pranjal决定从零开始实现一个矩阵乘法的CUDA核心。

这不是一个简单的任务，因为他要挑战的对手是英伟达精心优化的cuBLAS库。

关键在于充分利用H100的硬件特性：

132个流式多处理器（SM）
每个SM 1024个线程
每个SM 4个张量核心
80GB高带宽内存（3.35TB/s）
每个SM 256KB共享内存+L1缓存
每个SM 65,536个寄存器
所有SM共享50MB L2缓存

突破性的优化

Pranjal使用了一系列精妙的优化技术。

首先是矩阵分块计算，将大矩阵乘法分解成多个小块的乘法运算。

最关键的优化来自于张量核心指令（Tensor Core）。

这些指令能在单个硬件周期内完成小型矩阵乘法运算。通过巧妙地组合这些指令，实现了从317 TFLOPs到423 TFLOPs的性能提升。

内存优化的魔法

为了进一步提升性能，Pranjal实现了生产者-消费者模式。

一个线程组负责加载数据（生产者），另一个线程组负责计算（消费者），两者并行执行。这种优化将性能提升到了498 TFLOPs。

寄存器优化的艺术

在尝试扩大计算块大小时，遇到了寄存器资源不足的问题。

解决方案是使用两个消费者线程组共同工作，将寄存器压力减半。这个优化将性能推升到了610 TFLOPs。

最后的突破

通过张量内存加速器（TMA）的特殊内存布局优化，以及精确控制每个线程组的寄存器使用量，最终将性能提升到了631 TFLOPs，超越cuBLAS整整7%！

最令人惊叹的是，整个实现仅用一个C++文件就完成了，不需要任何外部依赖。

这个成果立即引起了业内关注，Google Brain的前研究员Hieu Pham也对此表示：

无话可说，向你致敬。

该已经在GitHub上开源，完整的实现细节和性能分析都记录在了他的博客中。

https://github.com/pranjalssh/fast.cu

这个项目也为我们提供了重要启示：

即便是在已经高度优化的领域，依然存在突破的可能。只要我们敢于挑战，并且深入理解底层原理。

相关链接

[1] 原文链接: https://twitter.com/hyhieu226/status/1863108961953804673

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453458436&idx=2&sn=4fa9ecaebfe746908430b89219676732

关注AGI 的沿途风景！

最新文章

重磅！OpenAI政策研究负责人宣布离职

他用一个CUDA核心打败了英伟达cuBLAS！

刚刚，马斯克申请禁令阻止OpenAI全面盈利化！

Sam Altman 们正在进行历史上最大的「人才抢劫」！

ChatGPT，生日快乐！

硅光子计算将实现 O (1) 矩阵乘法！

中国生成式AI大会即将登陆上海，50+位嘉宾全解大模型、AI Infra、端侧AI、视频生成和具身智能，分会场完整议程已出炉！

中国生成式AI大会即将登陆上海，50+位嘉宾全解大模型、AI Infra、端侧AI、视频生成和具身智能，分会场完整议程已出炉！

用这一招，3090 轻松运行32B 模型！

Tesla Optimus 机械手升级至22个自由度，比你还要灵活！

全价版o1将定价每月2000美元，谁会为它买单？

重磅突破！ZipNN 可将模型大小压缩50%！

Qwen重磅发布QwQ推理模型，超越OpenAI o1

xAI要开游戏工作室了！马斯克：让游戏再次伟大！

OpenAI首席商务官：2025年将迈向第4、5级AGI！

苹果M4芯片硬刚RTX 3090！

刚刚，软银给OpenAI加注15亿美元，并允许员工套现！

小心！LLM 正偷偷黑进你的电脑！

英伟达发布音频模型Fugatto，可以学狗叫！

揭秘英伟达 A10 与 A10G 性能差异！

重磅！Reka AI 研究科学家Yi Tay正式宣布重返Google DeepMind！

JSON 才是大模型输出的噩梦？！

重磅！OpenAI 因盗用13万部影视训练模型而被诉！

OpenAI 即将带来的圣诞礼物：full o1、Sora还是Orion？

刚刚，苹果携手谷歌遭英国反垄断调查！

凉凉？！苹果计划于2026年启动大模型版Siri

Uber计划收购中国自动驾驶公司股份！

岌岌可危的摩尔定律，正被ASML 的EUV 光刻机续命！

Anthropic重磅发布MCP协议，或许这才是AGI的真正形态！

15分钟！用Windsurf完成markdown转换工具开发

4种提示词格式大PK：JSON最佳，且比Markdown准确率高两倍！

Cursor is AGI！

重磅！OpenAI推理AI霸主地位不保，新玩家纷纷入场

重磅！英伟达发布 H200 NVL！

年轻人们已陷入「AI 哀伤七阶段」

马斯克：人类文明只是宇宙的一瞬，我们必须成为多星球物种！

OpenAI 翻车，Whisper也会产生幻觉！

前谷歌CEO埃里克·施密特：脱缰的AI已近，但普通人尚未做好准备！

FridonAI：用AI驱动的加密货币分析工具！

Cursor 推出 v0.43，自动编程代理来了！

Gradio推出一键添加Logo魔法，开启品牌无限可能！

Grok 全新「专注模式」出炉，背后还隐藏着这些秘密！

FastBinaryEncoding——序列化格式王者来袭：秒杀JSON和Protobuf，性能提升10倍！

星际穿越TARS 开源！你也能拥有一个AI机器人了！

小心，你正在被AI 进行职场监控！

再也不能相信ChatGPT 写的代码了！

你知道吗？Qwen2VL可以一键重标注百万图片数据集

英伟达或成首个10万亿公司！

AI的下一个进化时代——后训练都有哪些开源项目？

ChatGPT 将推出屏幕分享功能！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉