程序是怎么一步步变成机器指令

文摘 2024-08-11 10:58 上海

当我们编写一个程序时，最终希望它能够在计算机上运行，而计算机只能理解最基础的机器指令。这篇文章将深入探讨一个程序从源码到最终变成机器指令的过程，涵盖编译、汇编、链接等多个阶段，并结合部分代码示例来说明每个步骤的细节。

点击上方“蓝色字体”关注我，选择“设为星标”！

回复“AI”领取超多经典计算机书籍

一、从源码到机器指令的整体流程

在现代编程中，我们通常用高级语言（如C++、Python、Java等）编写代码。这些代码不能直接被计算机执行，必须经过以下步骤转换为机器指令：

编译（Compilation）：将高级语言源码转换为汇编语言。
汇编（Assembly）：将汇编语言代码转换为机器语言的目标代码（目标文件）。
链接（Linking）：将多个目标文件和库文件链接成一个可执行文件。
加载与执行（Loading and Execution）：将可执行文件加载到内存，并由CPU执行。

让我们一步步深入了解每个阶段的详细过程。

二、编译：从源码到汇编代码

编译器的作用是将我们编写的高级语言代码转换为汇编代码，这个过程通常包括几个子步骤：

词法分析（Lexical Analysis）：编译器将源码拆分为最小的语法单位，即词法单元（token）。这些词法单元可以是关键词、标识符、操作符等。
语法分析（Syntax Analysis）：编译器检查词法单元的排列顺序是否符合语言的语法规则，构建出抽象语法树（AST）。
语义分析（Semantic Analysis）：编译器检查语法树是否符合语言的语义规则，例如类型检查、作用域检查等。
中间代码生成（Intermediate Code Generation）：编译器生成一种与具体机器无关的中间表示形式。
优化（Optimization）：编译器优化中间代码，使其运行更高效。
目标代码生成（Code Generation）：编译器将中间代码转换为汇编代码。


// 例子：简单的C++代码int add(int a, int b) {    return a + b;}

对于上述简单的C++代码，编译器会将其转换为类似于以下的汇编代码：


_add:    mov eax, edi    add eax, esi    ret

这里的mov eax, edi表示将edi寄存器的值移动到eax寄存器中，add eax, esi表示将esi寄存器的值加到eax寄存器中。

三、汇编：从汇编代码到机器代码

汇编器的任务是将汇编代码转换为机器代码，这些机器代码通常被称为目标代码或目标文件。每条汇编指令几乎都直接对应一条机器指令。


_add:    mov eax, edi   ; 机器码：0x89 0xf8    add eax, esi   ; 机器码：0x01 0xf0    ret            ; 机器码：0xc3

通过汇编器，汇编代码被转换为一系列二进制机器指令，存储在目标文件中。

四、链接：从目标文件到可执行文件

在编写大型程序时，代码通常分布在多个文件中。编译器会为每个源文件生成一个目标文件，但这些目标文件之间的符号引用（如函数调用、全局变量等）并不直接关联。这时，链接器需要将这些目标文件链接起来，生成最终的可执行文件。

链接主要包括以下几个步骤：

符号解析（Symbol Resolution）：链接器将每个目标文件中的符号（如函数、变量）进行解析，确定它们在最终可执行文件中的内存地址。
重定位（Relocation）：链接器根据符号的实际地址调整代码中的引用位置。
合并代码段：将各个目标文件的代码段、数据段合并到一起。


目标文件1：包含函数add目标文件2：包含main函数，调用add
链接器将add的地址填充到main函数的调用位置，最终生成一个可执行文件。

五、加载与执行：从可执行文件到运行中的程序

最终生成的可执行文件仍然只是存储在磁盘上的一个文件。要让它运行，还需要加载器（Loader）将其加载到内存中，然后由操作系统调度CPU来执行。

加载过程包括：

加载可执行文件到内存：操作系统将可执行文件的代码段、数据段加载到内存的合适位置。
设置入口点：确定程序的入口点（通常是main函数的地址）。
开始执行：将控制权交给程序，开始执行从入口点开始的机器指令。

六、总结

通过以上步骤，我们看到一个程序从源代码逐步演变为机器指令的完整过程。这个过程在现代编程中大多是自动化的，但了解其中的细节有助于我们编写更高效、性能更优的代码。

http://mp.weixin.qq.com/s?__biz=MzkwMDQxNjE4OA==&mid=2247494776&idx=1&sn=20e8f26dbd66c32c26dc6d685a4a92ab

AI让生活更美好

分享学习C/C++编程、机器人、人工智能等领域知识。

最新文章

书籍推荐：图解深度学习

书籍推荐：数据结构与算法图解

构造函数初始化类的六种方式

友元函数、友元类与友元成员函数详解

C++ 性能优化：从循环中移除代码

深入C++ 正则表达式：从基本应用到性能优化

深入理解 C++ 中的 static_assert 编译期断言

C++动态库与静态库的区别、如何封装自己的三方库及使用

C++ 未初始化的变量放在哪里，占多大？

析构函数未捕获的异常引发的coredump

书籍推荐：计算机数学：算法基础线性代数与图论

万字掌握递归算法，轻松解决复杂问题

程序运行时为何需要EXPORT动态库路径？系统库又是否例外？

C++ 中的 override 和 overload的区别

书籍推荐：GitHub入门与实践

C++17新型数据类型探秘：从 variant、optional 到 any 的全面解析

书籍推荐：《TCP/IP网络编程》

从 C++17、C++20 到 C++23，不断进阶的枚举类

C++ 类的成员变量在堆区还是在栈区

书籍推荐：剑指Offer：名企面试官精讲典型编程题

C++中掌握方法、参数与返回值的const正确性

书籍推荐：精通Rust-第二版

C++20 中的 constinit：让编译时常量更安全可靠

decltype和auto：静态与动态类型推导的利器

书籍推荐：超大流量分布式系统架构解决方案：人人都是架构师2.0

C++ 可见性秘密：如何用它们构建高效、安全的代码

解锁 C++ 静态成员类内初始化的正确姿势

探索C/C++中的宏定义：不加括号引发的潜在错误

书籍推荐：从缺陷中学习 C/C++

书籍推荐：现代C++白皮书（中文版）

解锁GStreamer的魔力：从零构建媒体处理组件图形

C++ httplib库：网络编程的得力助手

书籍推荐：数据结构（C++语言版）&数据结构习题解析

深入解析 inline 函数：揭示背后的效率提升秘诀

书籍推荐：秒懂设计模式

书籍推荐：CMake构建实战：项⽬开发卷

C++函数返回值类型后置

书籍推荐：CPU眼里的C/C++

C++类的双向耦合：理解与避免

探秘static关键字：函数与变量的神秘用法解析

C++ 内联和嵌套命名空间：让代码更具扩展性和组织性

书籍推荐：现代C++教程：高速上手 C++11/14/17/20

深度解析C++位操作：从基本运算到bitset的全面应用

C++ 原文件 .cc 与 .cpp 后缀的区别

书籍推荐：C++ 并发编程实战（第二版）

函数指针 vs. 引用传参：深入解析两种C++传参方式的应用场景与优劣

书籍推荐：《C++编程惯用法——高级程序员常用方法和技巧》

程序是怎么一步步变成机器指令

命令行参数的秘密：C++ 程序入口的 int argc, char* argv[]

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉