【Rust日报】跨平台高性能计算语言扩展CubeCL

科技 2024-07-26 23:30 加拿大

[rust is best]10 亿行挑战方案

作者尝试优化 Rust 中「10 亿行挑战」的解决方案。从原始的 5 分钟优化到了 9 秒。

作者的主要目标是创建一段简单、可维护且生产就绪的代码，而且没有使用不安全的操作。以下是一些关键经验：

使用 --release 优化构建
避免在关键路径中使用 println!；使用日志库进行调试
谨慎使用 FromIterator::collect()；它会触发新的分配
最小化不必要的分配，特别是避免使用 to_owned() 和 clone()
更换哈希函数，FxHashMap 比标准的 HashMap 稍微更快
对于大文件，优先使用缓冲读取而不是加载整个文件
当不需要 UTF-8 验证时，使用字节片段（[u8]）而不是字符串
只有在优化单线程性能后才进行并行化

作者采取了迭代式的方法，每个解决方案都作为一个单独的提交。

Blog: https://naveenaidu.dev/tackling-the-1-billion-row-challenge-in-rust-a-journey-from-5-minutes-to-9-seconds

GitHub: https://github.com/Naveenaidu/rust-1brc

[new ver] wgpu v22.0

主要更新内容如下：

所有与着色器相关的配置结构体现在都有一个 compilation_options 字段。目前只是将其设置为 Default::default()，如果有特定的编译需求，可以使用这个字段。
RenderPipelineDescriptor 和 ComputePipelineDescriptor 现在有一个 cache 字段。这允许在着色器编译过程中提供一个缓存来使用。这主要对 Android 设备有用，因为大多数桌面硬件/驱动程序提供了缓存。目前设置为 None。
DeviceDescriptor 现在有一个 memory_hint 字段。可以使用这个字段请求 GPU 优先考虑性能、内存使用情况，或允许请求自定义的内存块大小。不过，这些只是提示，硬件决定最终如何执行。目前设置为 Default::default()。

Wgpu是WebGPU API规范的Rust实现。WebGPU是由GPU for the Web社区组发布的规范，旨在以安全可靠的方式让Web代码访问GPU功能。它通过模仿Vulkan API，并将其转换为主机硬件正在使用的API（如DirectX、Metal、Vulkan）来实现这一目的。

Document: https://sotrh.github.io/learn-wgpu/news/22.0/

GitHub: https://github.com/sotrh/learn-wgpu

[new lib] CubeCL

CubeCL旨在现代化GPU计算，使编写最佳和可移植的内核更加容易。CubeCL允许使用Rust语法的子集编写GPU内核，并正在进行工作以支持更多语言特性。

CubeCL解决了GPU计算中的三个主要挑战：

可移植性：相同的代码库可以用来在任何GPU上进行编程，而不会降低性能。
可用性：无需使用新的着色器语言，只需在Rust代码顶部添加一个属性就可以在任何GPU上运行。
性能：通过创新的编译时系统生成细粒度的内核专用化，以利用最有效的指令。

下面是GELU函数的例子：

use cubecl::prelude::*;

#[cube(launch)]
fn gelu_array<F: Float>(input: &Array<F>, output: &mut Array<F>) {
    if ABSOLUTE_POS < input.len() {
        output[ABSOLUTE_POS] = gelu_scalar::<F>(input[ABSOLUTE_POS]);
    }
}

#[cube]
fn gelu_scalar<F: Float>(x: F) -> F {
    x * (F::erf(x / F::sqrt(2.0.into())) + 1.0) / 2.0
}

cube 属性中的 launch 关键字会自动生成一个函数来运行生成的内核：

fn main() {
    type Runtime = cubecl::cuda::CudaRuntime;
    let device = Default::default();
    let client = Runtime::client(&device);
    let input = &[-1., 0., 1., 5.];
    let output_handle = client.empty(input.len() * core::mem::size_of::<f32>());
    let input_handle = client.create(f32::as_bytes(input));

    gelu_array::launch::<F32, Runtime>(
        &client,
        CubeCount::Static(1, 1, 1),
        CubeDim::new(input.len() as u32, 1, 1),
        ArrayArg::new(&input_handle, input.len()),
        ArrayArg::new(&output_handle, input.len()),
    );

    let bytes = client.read(output_handle.binding());
    let output = f32::from_bytes(&bytes);
    // Should be [-0.1587,  0.0000,  0.8413,  5.0000]
    println!("Executed gelu with runtime {:?} => {output:?}", Runtime::name());
}

值得一提的是，这也是burn团队的一个项目。

GitHub: https://github.com/tracel-ai/cubecl

From 日报小组长琴

社区学习交流平台订阅：

Rustcc 论坛：支持 rss
微信公众号：Rust 语言中文社区

http://mp.weixin.qq.com/s?__biz=MzI1MjAzNDI1MA==&mid=2648221361&idx=1&sn=4bb1fc247bcc6842932cedeb139ea002

Rust语言中文社区

Rust官方及社区最新信息搜集、文章推送，教程学习，技巧分享，社区交流。信息来源是整个全球Rust社区。

【Rust日报】Matchbox - 类似UDP的不可靠、无序的点对点网络连接

【Rust日报】MiniBoosts - 算法研究库

Rust China Tour 武汉站来了！

【Rust日报】印度尼西亚CIMB Niaga银行将Java迁移到Rust

【Rust日报】为什么Rust中的std::pin::Pin包装器看起来非常奇怪

【Rust日报】private-jets - 分析私人飞机航班数据的命令行应用程序

【Rust日报】image 0.25.5 大幅改进了对AVIF图像格式的解码能力

【Rust日报】Rust 中字符串的优化方式

Rust界的“双胞胎”：Self和self，你真的了解它们吗？别以为穿个马甲就不认识你了

【Rust日报】diffogus - 计算同一类型的两个实例之间的差异

【Rust日报】Rust 编译器团队的重组

【Rust日报】refined_type - 让类型更健壮

报名开启|开放原子大赛“Rust数据结构与算法学习赛”

【Rust日报】CISA 和 FBI 要求从2026年1月1日起必须使用安全编程语言

【Rust日报】为什么涉及到的高质量工具几乎都是用Rust编写的？

【Rust日报】crud_routers - 一个自动生成CRUD路由的库

Rust 在 Android 的编程实践：技术驱动的车云一体化解决方案探索

【Rust日报】CubeCL 0.3版本发布，扩展了对AMD GPU的支持

【Rust日报】mlua 升级更新

别再被孤儿规则搞崩溃了！一文揭秘Rust编程秘密

探索 Rust 在众多领域的深度应用和最佳实践！第九届中国开源年会 Rust 论坛议题重磅登场！

【Rust日报】ContainerYard - Rust在云原生中的又一进展

【Rust日报】gRPC基准测试，Rust 表现很好

【Rust日报】Toasty - Tokio全新异步ORM框架

【Rust日报】Rustls TLS 库在性能方面优于 OpenSSL 和 BoringSSL

【Rust日报】design-patterns-in-rust - Rust中的SOLID原则和策略模式

技术解读｜“星绽”操作系统内核开源：采用Rust语言，兼顾性能与安全

【Rust日报】CanopyDB - 轻量级、高效的事务性键值存储引擎

【Rust日报】crc-fast-rs - 支持SIMD的CRC算法生成器

【Rust日报】Rust 1.82.0发布

【Rust日报】Rerun 发布 v0.19

【Rust日报】KDE社区正在努力改进KDE中对Rust编程语言的支持

【Rust日报】Gosub - 一个全新的网络浏览器

【Rust日报】用Axum替换Nginx

【北京】Rust开发实习生职位-飞书

【Rust日报】Rust构建的Minecraft服务器, CPU节省20倍，内存节省100倍

GOSIM China 2024 北京 Rust 主题参会指南

【Rust日报】deno发布v2.0

【Rust日报】Native DB、Redb和SQLite的性能评测

【Rust日报】使用Copilot并没有显著提高开发效率, 反而会导致代码中不小心引入41%更多的错误

Rust 议题征集｜ COSCon'24 第九届中国开源年会议

【Rust日报】bacon - 背景Rust代码检查器

【Rust日报】filtra 2024年9月份Rust语言Job报告（国外）

【Rust日报】观点：Rust语言的设计目标应该是编写高质量代码

【Rust日报】编程语言在易用性和性能之间的二元性

【Rust日报】Flawless - Rust的持久执行引擎

【Rust日报】llm_client - 在本地使用大型语言模型

【Rust日报】Tauri 2.0 发布

【Rust中国大会】视频全集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉