.NET9 PreView6硬件内部生成和浮点SMID运算

文摘 2024-07-21 19:30 湖北

点击上方蓝字江湖评谈设为关注/星标

前言

本篇是.NET9 PreView6性能优化的第三篇，也是最后一篇，承接前两篇：

注意，.NET9 PreView6并没有对AOT进行重大更新。在.NET9 PreView2里面曾经对AOT进行了自举模式，参考：.NET9 AOT ILC的重大变化.NET9 AOT ILC的重大变化‍

硬件内部生成

大部分硬件内部有其相应的优化，而应用层级只需要传递相应的参数即可。比如一些硬件希望用户为硬件内部的API的某些参数传递常量，这些常量可以直接编码到硬件内部底层的指令当中。不需要加载到寄存器或者内存当中，然后进行访问。如果没有提供常量，则会有相同逻辑但速度较慢的实现。

例：

static byte Test1(){    Vector128<byte> v = Vector128<byte>.Zero;    byte size = 1;    v = Sse2.ShiftRightLogical128BitLane(v, size);    return Sse41.Extract(v, 0);}

v是Vector128初始化的128byte个0，Sse2.ShiftRightLogical128BitLane把v向右移动size位，返回结果。Sse41.Extract则是返回v里面的某个索引项。比如以下返回3

  Vector128<int> vector = Vector128.Create(1, 2, 3, 4);  int extractedValue = Sse41.Extract(vector, 2);

在调用Sse2.ShiftRightLogical128BitLane的时候，JIT可以用常量替代，JIT具备这种优化。但是在确定生成加速代码还是等逻辑慢实现的时候，如果JIT检测到参数变量而不是常量，于是很早就确定了不对其进行优化形式的调用。

之前的代码：

; Method Program:Test1():ubyte (FullOpts)G_M000_IG01:                ;; offset=0x0000       sub      rsp, 72
G_M000_IG02:                ;; offset=0x0004       vxorps   xmm0, xmm0, xmm0       vmovaps  xmmword ptr [rsp+0x20], xmm0       lea      rdx, [rsp+0x20]       lea      rcx, [rsp+0x30]       mov      r8d, 1       call     [System.Runtime.Intrinsics.X86.Sse2:ShiftRightLogical128BitLane(System.Runtime.Intrinsics.Vector128`1[ubyte],ubyte):System.Runtime.Intrinsics.Vector128`1[ubyte]]       vmovaps  xmm0, xmmword ptr [rsp+0x30]       vpextrb  eax, xmm0, 0
G_M000_IG03:                ;; offset=0x0030       add      rsp, 72       ret      ; Total bytes of code: 53

RyuJIT 现在可以识别更多像这个例子这样的情况，并用其常量值替换变量参数，从而生成加速代码，而不会过早的确定不优化。下面是上述示例的新代码生成所示：

; Method Program:Test1():ubyte (FullOpts)G_M11031_IG01:  ;; offset=0x0000
G_M11031_IG02:  ;; offset=0x0000       vxorps   xmm0, xmm0, xmm0       vpsrldq  xmm0, xmm0, 1       vpextrb  eax, xmm0, 0
G_M11031_IG03:  ;; offset=0x000F       ret      ; Total bytes of code: 16

用于浮点和 SIMD 运算的恒定折叠

常量折叠是 RyuJIT 中现有的优化，其中可以在编译时计算的表达式被替换为它们计算的常量，从而消除了运行时的计算。许多新功能的示例：

浮点二进制运算，其中一个操作数是一个常量：

x + NaN现在折叠成 .NaN
x * 1.0现在折叠成 .x
x + -0现在折叠成 .x

例如，硬件内部函数假设是：xVector<T>

x + Vector<T>.Zero现在折叠成 .x
x & Vector<T>.Zero现在折叠成 .Vector<T>.Zero
x & Vector<T>.AllBitsSet现在折叠成 .x
查看 dotnet/runtime #103206 和 dotnet/runtime #103143 进行更深入的了解

往期精彩回顾

NET9 PreView5张量和AI算力

http://mp.weixin.qq.com/s?__biz=Mzg5NDYwNjU4MA==&mid=2247486711&idx=1&sn=483ce592187a80139be15fc881c05363

江湖评谈

记录，分享，自由。

最新文章

.NET9正式版所带来的好处在哪？

Go-main linux内核细节收尾

欢迎加入江湖评谈技术交流群

Go-main内核态细节

Go-main如何被Linux内核加载执行的

OpenJDK24协变的缺陷

.NET9引用数组协变怪异Bug

欢迎加入.NET9技术交流群

Rust安全指针，如何回收堆？

.NET9 RC2发布

欢迎加入.NET9技术交流群

带你轻松进入.NET9 CLR/JIT

江湖评谈---公众号福利

欢迎加入.NET9技术交流群

.NET8虚拟机加密开源啦

一分钟带你进入.NET9 CLR

欢迎加入.NET9技术交流群

Google就Microsoft的云策略向欧盟提出投诉

Ghidra美国国安局(NSA)逆向工具

Binary Ninja+LLDB独孤九剑

C++安全指针，Rust用处何在？

.NET9/Rust编译对比

程序员只学一门语言可以吗？

天下第一调试利器LLDB

.NET AOT之后就安全了吗？

2024年9月编程语言排行：Java复兴了吗？

Rustc链接和目标文件

.NET9 PreView7 DATAS原理简析

Rust musl/.NET-Glibc简析

.NET9 Pre7 DATAS+Rustc Compile线程续

Rustc Compile过程+线程

Rust编译器深入

Oracle又双叕开始严查JDK，连夜提桶跑路

Rust编译器+语法探究

Rust 原生跨平台GUI Slint

Rust原生级跨平台GUI开发Tauri

Rust语法简析

Rust编译器研究+.NET9 PreView7

从.NET9到Rust

从.NET9看Golang

wifi渗透

问题记录:Ubuntu源更新错误+Clang/llvm初探+PC温度过高

推荐两个.NET JIT顶级安全加密工具

欢迎加入.NET9技术交流群

浮点类型在内存中的存储

.NET9现代化编程长啥样？

.NET9 PreView6硬件内部生成和浮点SMID运算

.NET9 PreView6 循环优化和地址暴露

.NET9 PreView6 RyuJIT代码布局改进(HIR)

.NET9 PreView5张量和AI算力

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉