2.5GHz频率 hierarchy UPF DVFS低功耗CPU实战

文摘 2024-10-09 22:30 四川

“2.5GHz频率 hierarchy UPF DVFS低功耗CPU后端培训”

2.5GHz 景芯12nm CPU hierarchy upf DVFS 后端实战训练营！

项目手把手一对一辅导！随到随学！

课程采用hierarchy/partition flow，先完成单核cpu实战，然后完成CPU TOP实战！训练营简介：

Instance：315万
Gate count：2600万
Frequency: 2.5GHz
Power domain：7个，hierarchy UPF设计
EDA工具有VCS/Fusion Compiler/VCLP
EDA工具有innovus/Starrc/PT/Voltus/formality/LEC/Calibre
EDA工具有Redhawk-sc全网首发python版

授课形式：视频+文档+上机实践，真实项目flow，一对一答疑！
ICer加班太多，项目采用视频模式，随到随学！

景芯12nm CPU后端训练营您将掌握以下知识：

掌握hierarchy UPF文件编写，掌握Flatten UPF文件编写、UPF验证。本项目采用hierarchy UPF方式划分了7个power domain、voltage domain。
掌握power switch cell，包括SWITCH TRICKLE、SWITCH HAMMER。掌握低功耗cell的用法，选择合适的isolation cell、level shifter等低功耗cell。
掌握Power gating，Clock gating设计技术。
掌握Multi-VT设计技术，本项目时钟树都是ULVT，动态功耗小，skew小。
掌握DVFS技术，ss0p9 2.5GHz、ss0p72 2.0GHz,，其中sram不支持ss0p63。要做ss0p63的话，给sram vddm单独一个0p7v的电源即可。
掌握multibit cell的用法，本项目CPU里面的mb高达95%，选择合适的multibit cell得到超高的CPU利用率。INNOVUS里面一般不做mb的merge和split。所以前后一样的，一般综合做multibit的merge split。

根据TOP Floorplan DEF进行CPU子系统的partition以及pin assignment。
Top的Power stripe的规划及其push down。
SpecifyBlackBox，将CPU core镜像partition。
手动manual cut the BlackBox的方法，掌握复杂的floorplan设计方法经验。
VerifyPowerDomain，检查低功耗划分以及UPF的正确性。
Pin assignment，根据timing的需求进行合理的pin脚排布，并解决congestion问题。
掌握Timing budget。
掌握利用Mixplace实战CPU的自动floorplan，掌握AI的floorplan方法学。

掌握Fusion compiler DCG，利用fusion compiler来完成DCG综合，进一步优化timing与congestion。
掌握hierarchy ICG的设计方法学，实战关键ICG的设置与否对timing的重大影响。
掌握Stapling技术，实战power switch cell的布局和特殊走线的方法学，掌握CPU子系统的powerplan规划及实现，保证CPU子系统和顶层PG的alignment。
掌握CPU子系统和TOP的时序接口优化。掌握TOP isolation cell的placement以及isolation cell input电学特性检查。
掌握TOP和CPU子系统的clock tree Balance优化处理，common clock path处理。时钟树结构trace和时钟树评价。
CPU子系统的DRC/LVS检查
TOP系统的DRC/LVS检查
Hierarchy & Flatten LVS检查原理及实现方法
静态时序分析&IR-Drop
DMSA flow
根据Foundry的SOD（signoff doc）的Timing signoff标准建立PT环境。
Star RC寄生抽取及相关项检查
Timing exception分析，包括set_false_path、set_multicyle_path解析。
PT timing signoff的Hierarchical和Flatten Timing检查
PT和PR timing的差异分析、Dummy insertion和with dummy的Timing分析
IR-Drop分析

训练营部分文档：

Flow：Partition Flow

时钟结构分析：

复位结构分析：

12nm 2.5GHz的CPU实战训练营需要特别设置Latency，TOP结构如下，参加过景芯SoC全流程训练营的同学都知道CRG部分我们会手动例化ICG来控制时钟，具体实现参见40nm景芯SoC全流程训练项目，本文介绍下12nm 2.5GHz的CPU实战训练营的Latency背景，欢迎加入实战。

时钟传播延迟Latency，通常也被称为插入延迟（insertion delay）。它可以分为两个部分，时钟源插入延迟（source latency）和时钟网络延迟（Network latency)。

大部分训练营同学表示平时都直接将Latency设置为0了，那latency值有什么用呢？其实这相当于一个target值，CTS的engine会根据你设置的latency值来插入buffer来实现你的latency target值。

下图分为1st Level ICG和2nd Level ICG，请问这些ICG为什么要分为两层？

请问，为什么不全部把Latency设置为0？2nd Level ICG的latency应该设置为多少呢？

latency大小直接影响clock skew的计算。时钟树是以平衡为目的，假设对一个root和sink设置了400ps的latency值，那么对另外的sink而言，就算没有给定latency值，CTS为了得到较小的skew，也会将另外的sink做成400ps的latency。请问，为何要做短时钟树？因为过大的latency值会受到OCV和PVT等因素的影响较大，并有time derate的存在。

分享个例子，比如，CPU低功耗设计，DBG domain的isolation为何用VDDS_maia_noncpu供电而不是TOP的VDD？

答：因为dbg的上一级是noncpu，noncpu下面分成dbg和两个tbnk。

再分享个例子，比如，CPU低功耗设计，这个switch cell是双开关吗？答：不是，之所以分trickle和hammer，是为了解决hash current大电流，先开trickle，然后再开hammer。

再分享个例子，比如，CPU课程的低功耗例子：请问，如果iso cell输出都要放parent，输入放self，那么下面-applies_to_outputs对应的-location为何是self?

答：这个需要了解CPU的内部设计架构，tbnk掉电 VDDS_maia_noncpu也必然掉电，pst如下，所以-applies_to_outputs对应的-location是可以的，那么注意下debug domain呢？

实际上，没有tbnk到debug domain的信号，因此脚本如下：

再分享个例子，比如，CPU课程的低功耗例子：为何non_cpu的SRAM的VDD VDDM都接的可关闭电源？SRAM的VDD VDDM分别是常开和retention电源吧？

答：本来是VDDM作为retention电源设计的，VDD关掉后 VDDM可以供电作为retention使用，但是此处没有去做memory的双电源，sram当成单电源使用，不然sram无法彻底断电。

再分享个例子，比如，CPU课程有学员的单核CPU core LVS通过, 但是CPU顶层LVS比对不过，我们来定位一下。

以FE_OFN4326_cfgend_cpu1_o为例，点击下图FE_OFN4326_cfgend_cpu1_o：

找到calibredrv错误坐标：（1949,139）

对应到innovus去看坐标：（1949,139）

看到单核cpu的pin脚过于密集，造成顶层连接pin脚时候会无法绕线，从而导致innovus从单核cpu上面走线，形成short。尽管单核cpu带了blockage，但是invs没有足够的连接pin的routing resource，也就只能在单核cpu上面去try了。

修改办法很简单，具体操作option参见知识星球。

保存db，重新LVS，比对通过。

我们来对比下12nm CPU TOP项目与A7项目的资源。12nm CPU TOP项目Gate数目是A7的13倍！如果都采用28nm制程，A72的面积应该是1180790um^2，实际12nm CPU TOP项目采用12nm制程面积是486100um^2，1180790/486100=2.4，符合摩尔定律。

A7单核：

Gates=240291 Cells=118421

12nm CPU TOP单核：

Gates=3125649 Cells=1207766

A7单核：

Area=90830.1 um^2

12nm CPU TOP单核：

Area=486100.9 um^2

12nm CPU TOP处理器Partition Flow：

A7处理器：

12nm CPU TOP项目好评：

先说结论：

课程内容非常全面，讲解到位，会有专门的工程师一对一答疑，整个项目跑下来提升非常大，绝对物超所值！

一些细节：

本人微电子专业研一在读，有过两次简单的数字芯片流片经历，出于学习和科研需要，报名了景芯的12nm CPU TOP UPF DVFS后端课程。

整个项目基于innovus实现，主要包括芯片partition、maia_cpu的PR和MAIA顶层的PR三个阶段。在每个阶段PR结束之后，对maia_cpu ip核/MAIA顶层进行Calibre DRC, LVS检查，StarRC抽参，pt抽参，lc生成lib文件，使用xtop/pt进行timing eco修复setup/hold违例，LEC逻辑等价性检查，VCLP低功耗设计静态检查，voltus功耗和压降评估，redhawk功耗和IR Drop分析等等。个人觉得课程的设置真的非常全面，涵盖了芯片后端物理实现直到tapout的全流程，本人在跑这套后端flow的过程中也了解到很多非常实用的后端EDA工具和功耗/时序的分析/修复方法。

项目整体流程和部分文档

在partition阶段，进行初步的floorplan，划分电压域，并实现顶层的电源网络。如下图所示，整颗芯片包含两颗cpu核，若干L2 $，一些常开模块和PMU模块等等。整颗芯片共划分了6个电压域。（顺便提一句，我觉得整个项目唯一美中不足的地方是顶层芯片没加PAD，景芯的另一个soc项目有加PAD的流程）

MAIA before partition

MAIA partition

maia_cpu阶段实现单颗cpu的PR，这部分流程就比较常规了，首先导入之前partition好的maia_cpu部分的def，随后进行单颗maia_cpu的floorplan、摆放powerswitch和各种tapcell, endcap、电源网络设计、摆放标准单元、时钟树综合、二级电源连线、信号布线、各种check和verify、release等。但是！让我眼前一亮的有两点，一个是12nm的电源网络的via pillar处理方式，另一个是ICG单元的特殊处理和整个时钟网络的balance，还是学到不少新东西的。

maia_cpu floorplan

via pillar

overview of ICGs

完成maia_cpu后，我先进行starRC、pt抽参，随后使用xtop优化setup和hold，并再次打开innovus使用xtop生成的脚本自动进行eco修复timing。确认时序没有违例后，使用Calibre进行DRC、LVS检查，不出所料有很多DRC违例，LVS不通过。但是！！！景芯的一对一辅导真的很靠谱，有几个较难的DRC和LVS问题，工程师会一步步帮忙找bug并进行eco，整个过程非常专业并且工程师真的非常非常有耐心。最后如愿DRC和LVS clean。

DRC/LVS results

对maia_cpu进行一系列LEC检查和功耗、压降检查后，就可以进行最后一步MAIA顶层的布局布线了。依次读入各种lib和lef文件、maia_cpu的def和partition阶段产生的MAIA顶层的def，随后与maia_cpu相同，进行floorplan、电源网络、时钟树综合等等，不再赘述。

MAIA after CTS

整体来说我觉得这个项目是非常完善的，DRC、LVS、时序、功耗、压降等各种检查都有涉及；同时项目也非常有难度，不仅芯片规模大，制程先进(12nm)，还涉及很多UPF的相关内容。景芯课程视频和实践相结合的授课方式也非常有效，课程的课程视频会大量讲解一些原理性的内容，比如MCMM、UPF的一些基本概念和环境配置、时钟树的基本理论和该项目的时钟树结构的设计方法、顶层模块的时序约束、POCV/SOCV时序报告解读等等，而上机实践的部分则需要自己动手跑脚本，发现bug并尝试解决，锻炼工程能力。此外，我觉得课程很贴心的一点是，上机实践的部分在关键步骤都准备了golden结果，如果当下bug不能立即解决可以先跳过，使用提供的golden先体验一下整个后端流程，回过头再来解决一些细节问题。跑完整个项目真的感觉收获满满，在理论和实践上都有很大提升，但是感觉依然有很多内容没有完全掌握，整个flow中的很多细节都没注意到，很多工具也只是马马虎虎跑了个脚本。

最后！我觉得这个课程最值的一点就是有专门的工程师全程答疑，工程师回消息特别快，解决方案也很细致，除了解决一些具体的bug之外，有时候还会讲解一些原理性的内容，分享一些工程经验等等，真的能学到很多除脚本之外的东西！非常推荐！

（另外: 我觉得12nm CPU TOP整体难度有点大，如果是新手的话建议先报景芯的soc后端实践课，再来尝试12nm CPU TOP的进阶课程）

http://mp.weixin.qq.com/s?__biz=MzI4NjE5NTM0Ng==&mid=2247515481&idx=1&sn=8cc82e8af37095acfe8e599e8ac6b4ef

全栈芯片工程师

十多年SoC、MCU、ISP、CIS芯片设计经验！为客户提供优质的design service！研究生毕业于电子科大，曾就职海思，后加入创业公司任芯片设计经理，创办了景芯SoC全流程芯片设计培训营！

最新文章

劲爆！3nm汽车MCU/ECU

详解AHB协议时序及实战

景芯DDR3实战课

继台积电后、三星也停供中国大陆7nm芯片

景芯SoC 12nm高性能CPU项目好评

芯片跨时钟域传输总结

快速掌握：芯片全流程设计

传台积电7nm，停止发货中国客户

景芯SoC 12nm高性能CPU项目好评

IC工程师高薪职位曝光！最高7万/月！

景芯SoC 12nm高性能CPU项目好评

又一起国内芯片公司并购！购买公司今日起停牌

景芯SoC 12nm高性能CPU项目好评

通过景芯培训提升后拿到心仪的offer了

景芯DDR子系统

详解芯片设计全流程

华为员工爆料：女，已婚已育，35岁，在HW干了10年测试，被输出了

某上市公司MCU团队撤裁，另MCU企业裁员30%，这个方向怎么了？

月薪5万的后端工程师不会告诉你的知识点

景芯SoC 12nm高性能CPU项目好评

为什么芯片工程师不愿意改设计？

月薪20k的IC工程师，在上海一个月可以存多少钱？

2.5GHz 12nm低功耗CPU后端实战

Verilog整洁代码之道--信号命名和定义应该明确

2.5GHz频率 hierarchy UPF DVFS低功耗CPU实战

刚刚，余凯港股敲钟！地平线开盘大涨28%市值632亿，港股年度最大科技IPO

ATPG网表仿真错1bit ?

2.5GHz频率 hierarchy UPF DVFS低功耗CPU实战

芯片细分行业的巨头

轻松玩转ISP算法到RTL实现

芯片设计公司正在工厂化

一文看懂ARMv8和ARMv9架构

图像预处理算法—灰度化处理

Verilog常数赋值、字符串、标识符

2.5GHz频率 hierarchy UPF DVFS低功耗CPU实战

无LED闪烁的汽车摄像头设计的全新1200万像素图像传感器

一个芯片项目学完设计、验证、DFT、后端

震撼！20万美刀！芯片硕士起薪！

2.5GHz频率 hierarchy UPF DVFS低功耗CPU实战

CMOS图像传感器

DC逻辑综合实战问题

规范的重要性：verilog学习五点经验分享

2.5GHz频率 hierarchy UPF DVFS低功耗CPU实战

一个芯片项目学完设计、验证、DFT、后端

详解CPU原子操作

钱给够了，pua和007都不是事儿？

芯片28nm 40nm 55nm成熟制程打折

招人！景芯学员优先！

景芯SoC v4.0升级中，初步课表！

12nm maia_cpu低功耗top实战

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉