内容摘要
本论文主要针对GPGPU存储系统中的数据同步和原子操作效率等问题,提出了一种原子缓存(Atomic Cache),以促进GPGPU的内缓存计算硬件-软件协同设计。在软件层面,提出基于非排序交换的放松存储一致性模型,以减轻存内原子操作的执行,从而降低内存屏障的性能开销。在硬件层面,提出原位存储原子缓存电路,使得原子缓存能够高效地在缓存阵列内执行原子逻辑和算术操作。这些创新的优势体现在放宽对顺序一致性(SC)的严格要求可以避免内存屏障带来的性能损失,促进在原位存储SRAM阵列内高效执行原子性存内算术和逻辑计算可以缓解由原子操作序列化执行引起的冯·诺依曼瓶颈。实验评估结果表明,原子缓存在节省超过60%的内存访问能耗的同时,仅增加9.42%的芯片面积开销。此外,它不仅为基准GPGPU提供了平均2.59倍的加速比和1.48倍的IPC性能提升,还与采用本地原子缓冲区的最先进设计相比,实现了平均1.31倍的加速比和39.92%的IPC性能提升。
会议简介
由电气电子工程师协会(IEEE)和美国计算机学会(ACM)共同举办的微架构国际研讨会(MICRO)是最具影响力的体系结构领域顶级会议之一,被公认为与ISCA、HPCA、ASPLOS并列计算机体系结构四大顶会,其中,MICRO是这四大会议中历史最悠久的会议,并且MICRO 还与ISCA作为两大会议入选中国人工智能学会(CAAI)认定的智能芯片与计算机系统领域的A类会议,同时也是中国计算机学会推荐的计算机体系结构/并行与分布计算/存储系统领域的A类会议。自1968年创办以来,截至2024年,前56届MICRO会议总共收录论文2236篇,其中中国大陆高校、科研机构和企业总共发表论文仅有78篇,占比不到5%,而高校发表则更少,MICRO仍是我国学者需要重点关注突破的顶级会议之一。