gcc attribute((always_inline))与 attribute((noinline))解析

文摘 2024-11-07 08:21 中国

引言

在 C 语言中，inline 关键字是一种编译器提示，用于建议编译器将函数调用替换为函数体本身。这种优化技术可以减少函数调用的开销，特别是对于那些频繁调用但实现简单的函数来说更为有效。除了标准的 inline 关键字外，一些编译器还提供了额外的控制机制，如always_inline 和 noinline，以提供更精细的控制。

我们接下来主要讲一下跟内联函数相关的两个属性：always_inline 和 noinline 。这两个属性的用途是告诉编译器：编译时，对我们指定的函数内联展开或不展开。

内联关键字概述

1. inline

定义：当一个函数声明或定义前加上 inline 关键字时，它指示编译器尝试将该函数的调用展开而不是进行常规的函数调用。这可以减少程序运行时的性能损失。

标准：C99 及以后的标准。

用途：建议编译器将函数内联化。

使用场景：适用于短小且经常被调用的函数。

语法：

inline int func(int x, int y) {
    return x + y;
}

2. always_inline

定义：这是一个非标准的扩展，通常由特定的编译器（如 GCC）支持。它强制编译器将指定的函数内联，即使这样做可能会导致代码膨胀。

标准：编译器特定扩展（GCC 等）。用途：强制编译器将函数内联化，即使会导致代码膨胀。

使用场景：当开发者确定某个函数必须被内联以达到最佳性能时使用。

语法（GCC）：

inline __attribute__((always_inline)) int func(int x, int y) {
    return x * y;
}

3. noinline

定义：同样是一个编译器特定的扩展，它告诉编译器不要将标记的函数内联，即使它们被声明为inline。

标准：编译器特定扩展（GCC等）。用途：禁止编译器将函数内联化，即使函数被声明为 inline 。

使用场景：当需要确保某些函数不会被内联，例如为了调试目的或者避免代码体积过大时。

语法（GCC）：

__attribute__((noinline)) int func(int x, int y) {
    return x - y;
}

【拓展：关键字归属说明】
inline：这是 C 语言标准的一部分，从 C99 开始引入。inline 关键字用于建议编译器将函数调用内联化，以减少函数调用的开销。
always_inline 和 noinline：这两个关键字是编译器特定的扩展，主要由 GCC（GNU Compiler Collection）和其他一些编译器支持。它们提供了更细粒度的控制，超越了标准 C 语言的 inline 关键字。

内联函数使用 inline 关键字声明即可，有时还会结合 static 和 extern 修饰符一起使用。使用 inline 声明一个内联函数，类似于使用 register 关键字声明一个变量。这两种关键字都是向编译器提出建议，而不是强制命令。使用 register 修饰变量时，编译器被建议将该变量存储在寄存器中，以提高程序的运行效率。然而，编译器是否会遵循这一建议，取决于寄存器资源的可用性和变量的使用频率。

【思考：内联函数为什么常使用 static 修饰？】

在 Linux 内核中，大量的内联函数定义在头文件中，并且常常使用 static 修饰。关于这一点，网上有很多讨论，但核心原因可以从 C 语言和 C++ 的角度来理解。Linux 内核作者 Linus Torvalds 也对此有过解释：

“static inline” 意味着“如果我们需要这个函数，但不内联它，那么就在这个编译单元中生成一个静态版本。”而 “extern inline” 则意味着“我实际上有一个外部定义的函数，但如果需要内联它，这里提供了一个内联版本。”

我的理解如下：
为什么内联函数要定义在头文件中？内联函数通常定义在头文件中，因为它们可以像宏一样使用。任何需要使用这些内联函数的源文件，只需包含相应的头文件，即可直接使用这些函数，而不需要重复定义。这样可以简化代码管理和维护。
为什么内联函数要用 static 修饰？尽管我们使用 inline 关键字定义了内联函数，但编译器并不一定会将其内联展开。如果多个源文件都包含了同一个内联函数的定义，编译时可能会出现重定义错误。通过使用 static 修饰，可以将函数的作用域限制在各自的编译单元内，从而避免重定义错误。

同样，当一个函数使用 inline 关键字修饰时，编译器在编译时并不一定会将其内联展开。编译器会根据多种因素来决定是否内联展开，这些因素包括函数体的大小、函数体内是否存在循环结构、是否有指针操作、是否有递归调用以及函数的调用频率等。GCC 编译器通常不会在默认情况下对内联函数进行展开，默认的 GCC 编译的优化选项是 -O0 的，这样是不会内联的，有些版本甚至无法编译通过，只有当编译优化级别设置为 -O2 或更高时，编译器才会考虑是否进行内联展开。

当我们使用 noinline 和 always_inline 属性对一个内联函数进行声明后，编译器的行为就变得确定了。使用 noinline 声明，明确告知编译器不要内联展开该函数；而使用 always_inline 属性声明，则明确告知编译器必须内联展开该函数。

通过这种方式，开发者可以更精细地控制函数的内联行为，从而优化程序的性能。

【拓展：inline、always_inline、noinline的区别】
inline：仅仅是建议编译器内联，但不一定内联。
always_inline ：强制内联。
noinline：强制不内联。

代码演示

我们可以编写一个 C 语言程序，然后使用反汇编工具（如 objdump）来查看不同内联策略下的汇编代码。这将帮助我们直观地理解 inline、always_inline 和 noinline 的实际效果。首先，编写一个 C 语言程序，包含三种不同内联策略的函数。

头文件 inline_functions.h ：

#ifndef INLINE_FUNCTIONS_H
#define INLINE_FUNCTIONS_H

// 使用inline
inline int addInline(int x, int y) {
    return x + y;
}

// 使用always_inline
__attribute__((always_inline)) inline int addAlwaysInline(int x, int y) {
    return x * y;
}

// 使用noinline
__attribute__((noinline)) int addNoInline(int x, int y) {
    return x - y;
}

#endif // INLINE_FUNCTIONS_H

源文件 inline_test.c：

#include <stdio.h>
#include <time.h>
#include "inline_functions.h"

int main() {
    int result;

    // 调用addInline
    result = addInline(10, 20);
    printf("addInline(10, 20) = %d\n", result);

    // 调用addAlwaysInline
    result = addAlwaysInline(10, 20);
    printf("addAlwaysInline(10, 20) = %d\n", result);

    // 调用addNoInline
    result = addNoInline(10, 20);
    printf("addNoInline(10, 20) = %d\n", result);

    return 0;
}

让我们使用 -O2 优化级别编译程序，以确保编译器能够应用内联优化。

gcc -O2 -g -o inline_test inline_test.c

使用 objdump 工具反汇编生成的目标文件。

objdump -d -S inline_test > inline_test.asm

打开生成的 inline_test.asm 文件，找到 main 函数的反汇编代码，观察不同内联策略的效果。

main 函数的反汇编代码如下：

int main() {
  4004b0:       48 83 ec 08             sub    $0x8,%rsp
    int result;

    // 调用addInline
    result = addInline(10, 20);
    printf("addInline(10, 20) = %d\n", result);
  4004b4:       be 1e 00 00 00          mov    $0x1e,%esi
  4004b9:       bf 98 06 40 00          mov    $0x400698,%edi
  4004be:       31 c0                   xor    %eax,%eax
  4004c0:       e8 db ff ff ff          callq  4004a0 <printf@plt>

    // 调用addAlwaysInline
    result = addAlwaysInline(10, 20);
    printf("addAlwaysInline(10, 20) = %d\n", result);
  4004c5:       be c8 00 00 00          mov    $0xc8,%esi
  4004ca:       bf b0 06 40 00          mov    $0x4006b0,%edi
  4004cf:       31 c0                   xor    %eax,%eax
  4004d1:       e8 ca ff ff ff          callq  4004a0 <printf@plt>

    // 调用addNoInline
    result = addNoInline(10, 20);
  4004d6:       be 14 00 00 00          mov    $0x14,%esi
  4004db:       bf 0a 00 00 00          mov    $0xa,%edi
  4004e0:       e8 0b 01 00 00          callq  4005f0 <addNoInline>
    printf("addNoInline(10, 20) = %d\n", result);
  4004e5:       bf ce 06 40 00          mov    $0x4006ce,%edi
  4004ea:       89 c6                   mov    %eax,%esi
  4004ec:       31 c0                   xor    %eax,%eax
  4004ee:       e8 ad ff ff ff          callq  4004a0 <printf@plt>

    return 0;
}
  4004f3:       31 c0                   xor    %eax,%eax
  4004f5:       48 83 c4 08             add    $0x8,%rsp
  4004f9:       c3                      retq

汇编代码解析如下：

main 函数的入口

4004b0:       48 83 ec 08             sub    $0x8,%rsp

sub $0x8,%rsp：调整栈指针，为局部变量分配空间。

调用 addInline

4004b4:       be 1e 00 00 00          mov    $0x1e,%esi
4004b9:       bf 98 06 40 00          mov    $0x400698,%edi
4004be:       31 c0                   xor    %eax,%eax
4004c0:       e8 db ff ff ff          callq  4004a0 <printf@plt>

mov $0x1e,%esi：将 30（即 10 + 20 的结果）加载到 %esi 寄存器，作为 printf 的第一个参数。
mov $0x400698,%edi：将格式字符串的地址 0x400698 加载到 %edi 寄存器，作为 printf 的第二个参数。
xor %eax,%eax：清零 %eax 寄存器，表示没有浮点数参数。
callq 4004a0 printf@plt：调用 printf 函数。

调用 addAlwaysInline

4004c5:       be c8 00 00 00          mov    $0xc8,%esi
4004ca:       bf b0 06 40 00          mov    $0x4006b0,%edi
4004cf:       31 c0                   xor    %eax,%eax
4004d1:       e8 ca ff ff ff          callq  4004a0 <printf@plt>

mov $0xc8,%esi：将 200（即 10 * 20 的结果）加载到 %esi 寄存器，作为 printf 的第一个参数。
mov $0x4006b0,%edi：将格式字符串的地址 0x4006b0 加载到 %edi 寄存器，作为 printf 的第二个参数。
xor %eax,%eax：清零 %eax 寄存器，表示没有浮点数参数。
callq 4004a0 printf@plt：调用 printf 函数。

调用 addNoInline

4004d6:       be 14 00 00 00          mov    $0x14,%esi
4004db:       bf 0a 00 00 00          mov    $0xa,%edi
4004e0:       e8 0b 01 00 00          callq  4005f0 <addNoInline>

mov $0x14,%esi：将 10 加载到 %esi 寄存器，作为 addNoInline 的第一个参数。
mov $0xa,%edi：将 20 加载到 %edi 寄存器，作为 addNoInline 的第二个参数。
callq 4005f0 ：调用 addNoInline 函数。

4004e5:       bf ce 06 40 00          mov    $0x4006ce,%edi
4004ea:       89 c6                   mov    %eax,%esi
4004ec:       31 c0                   xor    %eax,%eax
4004ee:       e8 ad ff ff ff          callq  4004a0 <printf@plt>

mov $0x4006ce,%edi：将格式字符串的地址 0x4006ce 加载到 %edi 寄存器，作为 printf 的第二个参数。
mov %eax,%esi：将 addNoInline 的返回值（存储在 %eax 寄存器中）加载到 %esi 寄存器，作为 printf 的第一个参数。
xor %eax,%eax：清零 %eax 寄存器，表示没有浮点数参数。
callq 4004a0 printf@plt：调用 printf 函数。

main 函数的退出

4004f3:       31 c0                   xor    %eax,%eax
4004f5:       48 83 c4 08             add    $0x8,%rsp
4004f9:       c3                      retq

xor %eax,%eax：清零 %eax 寄存器，表示 main 函数的返回值为 0。
add $0x8,%rsp：恢复栈指针。
retq：返回到调用者。

上述解析总结如下：

addInline：编译器将 addInline 内联展开了，因此在 main 函数中直接计算了 10 + 20 的结果，并将结果 30 直接传递给 printf。
addAlwaysInline：编译器将 addAlwaysInline 内联展开了，因此在 main 函数中直接计算了 10 * 20 的结果，并将结果 200 直接传递给 printf。
addNoInline：编译器没有将 addNoInline 内联展开，因此在 main 函数中通过调用
addNoInline 函数来计算 10 - 20 的结果，然后将结果传递给 printf。

通过反汇编代码，我们可以清楚地看到不同内联策略对函数调用的影响。

总结

使用 inline、always_inline 和 noinline 关键字可以帮助程序员更精确地控制函数内联行为，从而影响程序的性能和可维护性。虽然 inline 是 C 标准的一部分，但always_inline 和 noinline 则是编译器提供的扩展功能，使用时应确保目标编译器支持这些特性。合理利用这些工具可以优化关键路径上的代码执行效率，但也需要注意过度使用内联可能导致代码膨胀的问题。在实际开发中，应该根据具体需求和测试结果来决定是否使用以及如何使用这些内联选项。

Linux二进制

学习并分享Linux的相关技术，网络、内核、驱动、容器等。

最新文章

gcc __attribute__((always_inline))与 __attribute__((noinline))解析

gcc __attribute__((cleanup))解析

Cockpit | Web 控制台图形化管理 KVM 虚拟机

一步一步教你：如何在 Linux 上用 QEMU 搭建虚拟机

大佬不外传的交换机排障抓包黑科技

内存检测利器对比 | -fsanitize=leak 与 -fsanitize=address

让内存错误无所遁形 | GCC -fsanitize=address 实战解析

内存泄漏无处藏身 | GCC -fsanitize=leak 实战攻略

initramfs 与 dracut 总结

Linux内核模块管理工具总结

gcc __attribute__((section("secname")))解析

gcc __attribute__((aligned(alignment)))解析

gcc __attribute__((const))解析

Linux干货|手把手教你编译Linux内核 rpm包

Linux内核 | 网卡驱动适配内核及version.h解析

基于Linker Script与__attribute__((section))实现 C 语言函数调用实战

Linker Script 脚本秘籍 | 语法深度解析与实战

Valgrind | 让代码问题无处遁形，函数调用一目了然

GDB 调试：让程序运行中的错误无所遁形

Linux多线程同步机制——读写锁(Read-Write Lock)

Linux多线程同步机制--条件变量

Linux多线程同步机制--自旋锁（Spin Lock）

Linux多线程同步机制--互斥锁(mutex)

Linux平台使用LD_PRELOAD劫持和注入程序

5年+开发经验必须掌握的定位Linux程序崩溃的手段

【Python学习笔记】| PyPI 使用国内源（pip更换国内源）

【Python学习笔记】| Python 虚拟环境

【CMake学习笔记】| CMake调用不同生成器(Unix Makefiles/Ninja)构建及编译C/C++项目(四)

Linux内核模块通信 | 符号导出解析

Linux干货 | 内核模块参数传递与sysfs

Linux干货|手把手教你编译Linux内核rpm包

Linux干货 | 手把手教你编译Linux Kernel

大佬不外传的交换机排障抓包黑科技

为什么有了IP地址，还需要MAC地址

Linux内核模块管理工具总结

Git基础知识-工作区域以及版本库总结

Linux平台/proc虚拟文件系统浅见

反汇编角度深入浅出C函数调用机制与栈帧原理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉