为什么插入了几条NOP指令，MCU的功耗就变了？

文摘 2024-10-23 23:29 山东

关注+星标公众号，不错过精彩内容

作者 | 量子君

微信公众号 | 极客工作室

我最近在测试一个M0+ MCU的运行功耗，测试代码采用如下最简单的方式，即main函数里只跑一个while(1)空循环，测试出来的电流是1.11mA，使用的IDE为KEIL MDK，优化等级为0

当我在while(1)的前面插入3条NOP指令，测出来的电流却变成了0.89mA。

这是怎么回事？是测量误差，还是事实就是如此？这可是足足差了200多uA啊，为此我又做了如下几个对比实验。

测试条件	功耗
优化等级0，while(1)前不加NOP	1.11mA
优化等级0，while(1)前插入1个NOP	0.90mA
优化等级0，while(1)前插入2个NOP	1.11mA
优化等级0，while(1)前插入3个NOP	0.89mA
优化等级0，while(1)前插入4个NOP	1.12mA
优化等级0，while(1)前插入5个NOP	0.91mA
优化等级0，while(1)前插入6个NOP	1.11mA
优化等级0，while(1)前插入7个NOP	0.88mA
优化等级0，while(1)前插入8个NOP	1.11mA

上述实验可以看到明显的规律，只要while(1)前插入的NOP是奇数时功耗就相对小一点（差不多都是约0.9mA），while(1)前插入的NOP是偶数时功耗就大一点（差不多都是约1.11mA）。

说到这里，我们需要来了解一下NOP指令，我之前对NOP指令的理解只停留在它可以用来做软件延时用，其实它还有一个重要的作用是实现指令对齐

在调试窗口下，我们看一下汇编代码

C代码的while(1)被汇编成了2条指令，即NOP和B，跳转指令B前自动插了一个NOP。while(1)实际上是先执行一个NOP指令，再执行B指令，B指令跳转的地址就是自身的地址，达到无限循环的效果。可以看到此时while(1)里NOP指令地址是0x00000152（十进制338），B指令地址是0x00000154（十进制340）。

当while（1）前插入奇数条NOP指令后，while(1)对应的指令地址会改变。

指令地址的变化为什么会影响功耗呢？这又得需要提一下CPU执行指令的过程。

CPU内部一直重复执行着 Fetch（取指令）–> Decode（指令译码）–> Execute（执行指令）的过程。

CPU在执行程序取指令的时候，每次按照Flash 4字节对齐的方式从Flash一次读32bit的指令，如果while(1)前插入偶数（包括0）个NOP指令，那么CPU在执行while(1)时，需要从Flash读取2次32bit内容再Decode去执行。如果while(1)前插入奇数个NOP指令，那么CPU在执行while(1)时，只需要从Flash读取1次32bit内容即可。就是这个地方的差异会引起功耗的差异，前者要执行更多的操作所以功耗更大一点。

此外如果while(1)前不加入NOP，但是把优化等级调到最高，此时while(1)里 B指令前就不会插入一条NOP指令，这时B指令的地址为0x00000152，这时效果和不开优化等级、while(1)之前插入奇数个NOP一样，功耗也会低一点。道理其实是一样的，因为while(1)的执行只需要从0x150地址取一次址。

最后我还做了一个实验，就是把程序放到了RAM里，不管while(1)前加多少NOP，功耗都是一样，都是0.58mA。程序在RAM里，就不用从Flash里读程序了，所以功耗更低。

利用功耗的不同去做破解的行为，也是类似的原理。

以上分析仅是猜测，因为不了解MCU内部的运行细节，如果不对之处，欢迎大家指正。

若觉得文章对你有帮助，随手点『好看』、转发分享，也是对我的支持。

关注我的微信公众号，回复“加群”按规则加入技术交流群，回复“1024”查看更多内容。

点击“阅读原文”查看更多分享。

http://mp.weixin.qq.com/s?__biz=MzUzNTU3OTgyNw==&mid=2247484544&idx=1&sn=5f2525fa892727d03f8fbca51e2ed671

极客工作室

一个专注于嵌入式系统、智能硬件、AIoT的极客自媒体

最新文章

【ESP32填坑日记】技巧篇① 常用调试方法

我的其他分享平台

【Matlab学习日记】

【Matlab学习日记】① Sinmulink自动代码生成教程

【Matlab学习日记】② 常用滤波以及噪声分析方法（上）

【Matlab学习日记】③ 常用滤波以及噪声分析方法（下）

【Matlab学习日记】④ Matlab Coder 工具箱应用

【LVGL进阶日记】

【LVGL进阶日记】① 开源LVGL在MCU上的移植

【LVGL进阶日记】② LVGL外部字库刷新速度优化

【LVGL进阶日记】③ 离线地图渲染实现方案

嵌入式软件架构设计-状态机（附C源码）

如何对多字节数据实现序列化+压缩（附C源码）

用C语言实现数据加解密算法（附C源码）

如何设计一个高效轻量的链表（附C源码）

Type-C 的工作原理