实战经验：STM32G474 FPU性能优化与测量

科技 2024-11-08 12:05 北京

引言

客户在使用 STM32G474 时，希望使用 FPU 进行浮点运算，并最大化其性能。本文从 STM32G474 系统的角度、ARM DSP Lib、编译选项的影响等几个方面探讨如何提升整体性能，并介绍如何使用 KEIL 工具进行测量。

STM32G474 FPU 运算性能优化

2.1. STM32G474 系统性能优化

STM32G474 使用的是 ARM Cortex-M4 内核（+FPU）。一般代码会放在 FLASH 区，通过 I-Bus 读取。这里 STM32G474 有 FLASH 预取指及 CACHE Line, 无需放入 IRAM 或 CCM。因为 Cortex-M4 DSP 指令中没有运算指令与加载指令并行的混合指令，所以数据存放区域及 Bus 的选择理论上对性能的影响不大。如下图 1 所示，可将 FPU 运算数据放在 SRAM1。另外还需尽量避免 SRAM 的并发访问，如使能了 DMA，DMA 传输目的地可以使用 SRAM2，从而减少潜在的 SRAM 并发访问产生的性能下降。应用则需要根据实际情况，合理使用内存区域。

▲ 图1. STM32G474 架构

2.2. ARM DSP Lib 的使用

在 ARM DSP 库实现了很多 math 算法，可进行浮点乘加、点积、卷积、FFT、NN 等多种算法 API，可以使用 ARM DSP 库高效使用 FPU。ARM DSP 代码位置如下：

▲ 图2. ARM DSP Lib 目录结构

2.3. 示例代码

下面示例代码中对浮点乘法运算进行了测试。用户可以使用 STM32CubeMX 生成 STM32G474 KEIL 工程，在 main.c 文件中加入如下示例代码：

__attribute__((section (".TEST_INPUT_A"))) float32_t testInputA[1024] = {0.623234f, 0.799049f, 0.940890f, -0.992092f, 0.212035f, 0.237882f, -1.007763f, -0.742045f,~~ 这里数组使用动态生成的float数据，数据量较大，略-0.417470f, -0.205806f, -0.174323f, 0.217577f, 1.684295f, 0.119528f,0.650667f, 2.080061f};__attribute__((section (".TEST_INPUT_B"))) float32_t testInputB[1024] = {-2.423957f, -0.223831f, 0.058070f, -0.424614f, -0.202918f, -1.513077f, -1.126352f, -0.815002f,
~~ 这里数组使用动态生成的float数据，数据量较大，略 -0.447001f, -0.725993f, 0.354045f, -0.506772f, -2.103747f, -0.664684f, 1.450110f, -0.329805f }; 
__attribute__((section (".TEST_RESULT_D"))) float32_t testResult[1024]; 
float32_t* pA;float32_t* pB; float32_t* pR; /* Private user code --------------------------------------------------*/ /* USER CODE BEGIN 0 */ void test_normal_mul(uint32_t kLoops, float32_t* pSrcA, float32_t* pSrcB, float32_t* pResult, uint32_t lenVector) { for (uint32_t j = 0; j < kLoops; j++) { pA = pSrcA; pB = pSrcB; pR = pResult; 
for (uint32_t i = 0; i < lenVector; i++) { *pR++ = (*pA++) * (*pB++) ;    }   } } 
#if defined (__FPU_USED) && (__FPU_USED == 1U) /* Use arm dsp lib to test basic operation Multiply, FPU enabled */ void test_arm_math_mul(uint32_t kLoops, float32_t* pSrcA, float32_t* pSrcB, float32_t* pResult, uint32_t lenVector) { for (uint32_t j = 0; j < kLoops; j++) { pA = pSrcA; //Code alignment with the function without FPU pB = pSrcB; pR = pResult;arm_mult_f32(pA, pB, pR, lenVector); } } #endif 
/** * @brief The application entry point. * @retval int */ int main(void) { /* MCU Configuration------------------------------------------------*/ 
/* Reset of all peripherals, Initializes the Flash interface and the Systick. */ HAL_Init(); 
/* Configure the system clock */ SystemClock_Config(); 
… 
HAL_Delay(100); 
/* USER CODE BEGIN 2 */ test_normal_mul(10, testInputA, testInputB, testResult, 1024);test_normal_mul(10, testInputA, testInputB, testResult, 1024); 
#if defined (__FPU_USED) && (__FPU_USED == 1U) // Multiply calculation with arm dsp lib test_arm_math_mul(10, testInputA, testInputB, testResult, 1024);test_arm_math_mul(10, testInputA, testInputB, testResult, 1024); #endif 
/* USER CODE END 2 */ 
/* Infinite loop */ /* USER CODE BEGIN WHILE */ while (1) {/* USER CODE END WHILE */ 
/* USER CODE BEGIN 3 */ } /* USER CODE END 3 */ }

2.4. 工程配置

通过 KEIL 工程 Options / Target, Floating Point Hardware, 确定 FPU On/Off。

▲ 图3. KEIL 项目工程 FPU 单精度浮点设置

通过 STM32G474_FPU_TEST.sct 文件配置 Data 存放区域，如下例，将测试数据置于 SRAM2。

RW_IRAM1 0x20000000 0x00014000 { ; RW data.ANY (+RW +ZI)}RW_IRAM2 0x20014000 0x00004000 {*(.TEST_INPUT_A)*(.TEST_INPUT_B)*(.TEST_RESULT_D)}RW_CCM 0x20018000 0x00008000 {}

完成后，进行编译链接，即可进行 STM32G474 FPU 性能的测试。

2.5. 编译选项

本文中我们使用的是 KEIL IDE，设置使用的是 KEIL Compiler V5。为了获得代码最大程度上优化，我们使用了-O3 优化选项，与-Otime（Optimize for Time）结合使用。该组合选项意味着会进行更多代码优化，如循环展开，更激进的函数内联和自动函数内联（-O3 默认使用--autoinline）等，当然副作用是二进制代码大小会有所增加。另外，增加设置 --loop_optimization_level=2 来控制循环展开的优化等级。（注意：-- loop_optimization_level=2 选项只能与-O3 -Otime 一起使用。）如果您对 FPU 架构比较熟悉，也可以尝试增加—fpu=fpv4-sp（Cortex-M4F FPU 实现的是 FPv4-SP 浮点运算扩展）等选项，不过一般使用默认即可。

▲ 图4. KEIL 工程，编译选项设置

使用 KEIL Trace 工具进行测量

3.1. KEIL 工程设置

KEIL 工程下，首先选择工程选项设置，在 Debug 选项页中，右上部使用 Debugger 工具栏中选 Settings，如下图 5 和图 6 设置。注意 KEIL Trace 设置的时钟必须要与实际 STM32 使用的系统时钟相一致，如图 6 中，STM32G474 使用了 170MHz 的系统时钟， KEIL Trace 中也要相应设置为 170MHz。

▲ 图5. KEIL 工程，Debugger 设置入口

▲ 图6. KEIL 工程，Cortex-M Trace 功能设置

运行KEIL debugger，如下图7所示，将断点设置在要测量的语句前及其后，执行代码，当Debugger停在断点时，其状态栏中t1指示的即为当前代码的已执行时间。测试代码起止时间差即为代码执行用时。该Trace功能计时是比较准确的。当然如果您希望掌控更多，也可以通过代码来实现，如增加诸如如下代码：

nStart = DWT->CYCCNT; ~~~需测试执行时间的代码~~~ nStop = DWT->CYCCNT;

然后用(nStop – nStart)/系统时钟，换算成时间即可。（我们这里没有考虑中断，一般测量前需要禁用中断）

▲ 图7. KEIL 工程，Debug 模式下 Trace 程序执行时间

3.2. 测试结果

下表列出了STM32G474 10K次浮点“乘”用时统计。

▲ 表1. STM32G474 10K 次浮点“乘”用时统计表

10 X 1024次浮点乘
增加--loop_optimization_level=2 编译选项

FPU 核心汇编代码的比较，见图8和图9。

▲ 图8. 使用--loop_optimization_level=2 编译选项的常规代码汇编

▲ 图9. ARM DSP 库 arm_mult_f32 函数汇编

使用loop_optimization_level=2, 常规代码使用KEIL compiler V5编译结果与 arm DSP Lib 的核心汇编基本相同。如果不使用loop_optimization_level=2编译选项，则可以看到其主要区别在于KEIL Compiler V5 与ARM库对loop的unroll 处理程度不同。在实际应用时，需要根据应用自身需求判断是否需要使用ARM DSP Lib，基本上 ARM DSP Lib是很高效的。

小结

本文介绍了使用 STM32G474 FPU 进行浮点运算，从系统的角度、ARM DSP Lib、编译选项的影响等几个方面探讨如何提升整体性能，并介绍了如何利用 KEIL Trace 工具进行测量，以供在系统性能方面有需求的客户参考借鉴。

END

来源：STM32

版权归原作者所有，如有侵权，请联系删除。

▍推荐阅读

KEIL MDK v6价格公布......

中国人竟然也能发明靠谱的编程语言！

C/C++大限将至，美国强硬要求2026年前全面剔除！

→点关注，不迷路←

http://mp.weixin.qq.com/s?__biz=MzI0ODU0NDI1Mg==&mid=2247566344&idx=3&sn=9ef25c1414bb024a56bbed755e0e6d8f

嵌入式微处理器

关注嵌入式相关技术和资讯，你想知道的都在这里。

最新文章

我用一行代码，干崩同事的服务器！

教你在QEMU上运行RISC-V Linux

Linux中时区获取与ISO8601时间完善

5分钟上手国产STAR-MC1单片机

谈谈嵌入式C语言踩内存问题

多核处理器AMP/SMP/BMP介绍

C语言的include没你想的那么简单！

最新编程语言排行榜出炉：Go排名创新高！

Linux中设备树是怎么和驱动程序联系起来的？

MCU裸机应用程序迁移到RTOS案例说明

一种VMware无法开机的现象和代码拯救方法

为什么单片机会有3.3V和5V电压等级的区分？

为什么你的网卡收不到不同网段的数据包？

数字电位器能否代替电路中的机械电位器？

低功耗中LED指示灯的应用问题

浅谈程序员的职业周期、总收入与35岁中年危机

如何确保嵌入式系统不崩溃？在C、C++中安全使用指针！

图解常见的限流算法（计数器算法、滑动窗口计数算法、漏桶算法、令牌桶算法）

中国有这么多码农，为什么出不来JetBrains、MathWorks这样的公司？

安卓用户注意！新型木马病毒肆虐全球：小心账户一夜归零

避免内存陷阱：掌握memcpy和memmove的正确用法

【苹果M4 Mac mini拆解】内部构造令人叹为观止，华强北已将256G升级为2TB

好奇GPS外置天线里藏了些什么宝贝？拆开看看！

怎么解决码流多slice场景下的马赛克、绿屏问题？

培养一个优秀的嵌入式工程师有多难？

C如何参考C++中的链表功能定义进行实现？

实战经验：STM32G474 FPU性能优化与测量

MySQL已经进化到这种程度了么？

嵌入式Linux的GDB调试与常用命令

浅谈Verilog/System Verilog和C的几种交互方式

1000T的文件怎么能快速从南京传到北京？最佳方案你肯定想不到

手把手教你自制任务调度系统

蓝牙工作原理与发展历程介绍

为什么大厂都在用Yocto？

STM8L052C6单片机驱动段码屏实例

vivado SDK中如何计算一段程序执行时间？

C/C++大限将至！美国强硬要求：2026年前关键软件全面剔除C

Linux-C++获取当前时间与计算时间间隔

国产手机操作系统的沧桑往事

中国人竟然也能发明靠谱的编程语言！还在世界范围上开始逐渐流行!

CoWos是什么？台积电又是如何凭借CoWos独霸世界的？

IP、FPGA、SOC和CPU验证都在做什么？一文讲清楚！

华为自研仓颉编程语言官网上线，首个公测版本开放下载！

do-while竟然有这么多妙用？

保姆级Git入门到高级用法详解

【玩转APM32的DMA】手把手教你用I2C的DMA实现OLED刷屏

嵌入式Linux驱动开发之点灯大法

嵌入式系统及其应用中的存储器类型

KEIL MDK v6价格公布......

3个字让你记住单片机的大小端模式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉