RISCV linux kernel启动代码分析之二:RISCV的MMU介绍与relocate

文摘   2024-11-14 08:30   湖南  

一. 前言

前面介绍了启动汇编部分代码执行流程和镜像头,这一篇继续分析整个过程中关键的一步relocate,物理地址到虚拟地址运行的切换。前面先简单介绍下riscvmmu,后面分析relocatesetup_vm时需要用到。

二. riscvmmu

MMU相关内容参考

[1]The RISC-V Instruction Set Manual: Volume II Privileged Architecture Version 20240411

参考[1]的章节《Chapter 10. Supervisor-Level ISA, Version 1.13

2.1 相关寄存器指令

RISCVMMU涉及一个CSR寄存器SATPSFENCE.VMA 指令。

SATP寄存器

参考[1]10.1.11. Supervisor Address Translation and Protection (satp) Register

SATP: Supervisor Address Translation and Protection RegisterS/U模式地址转换和保护寄存器。

SATP格式如下:

PPN(physical page number ):保存根页表的物理页号。PPNx4KB即根页表的物理地址。

32位时可寻址32(22+12=4GB物理空间) 64位时可寻址56(44+12)物理空间。

ASID (address space identifier):地址空间标识,可以用来标识进程。

MODE:用于表示地址转换模型。内容如下

32位时只能使用Sv3264位时可使用Sv39/48/57(常用Sv39)RISV只使用基于页的虚拟地址模式。

SXLEN=32

Value

Name

Description

0

Bare

无转换和保护

1

Sv32

基于页的32位虚地址模式

SXLEN=64

Value

Name

Description

0

Bare

无转换和保护

1-7

-

标准保留

8

Sv39

基于页的39位虚地址模式

9

Sv48

基于页的48位虚地址模式

10

Sv57

基于页的57位虚地址模式

11

Sv64

保留给基于页的64位虚地址模式

12-13

-

标准保留

14-15

-

设计给用户使用

MMU只有在S模式且SATPMODE为有效Sv模式时才使能。

后面说的setup_vm即构建页表,然后relocate时设置satp指向根页表设置mode,使能mmu

SFENCE.VMA 指令

该指令用于刷新与地址转换相关的本地硬件缓存,页表写入和地址转换硬件的同步,比如刷新TLB

指令格式

sfence.vma rs1, rs2

该指令的具体含义rs1rs2不同参数的含义,以及何时需要执行该指令可以参考上述参考章节。

sfence.vma 表示rs1,rs2x0,即针对所有地址和级别。

指令

2.2 Svxx

RISCV支持Sv32Sv39Sv48Sv57Sv64.

32位系统只能使用Sv32

64位系统可以使用Sv39~Sv64常用Sv39

这里以Sv32Sv39为例.

简单来说MMU即按照一定块大小实现虚拟地址到物理地址的转换(同时还可以设置对应块的访问属性),这个转换对应的块有一个颗粒度,即所谓的段/页式,这个转换的对应关系通过一个转换表来表示。页式即按照较小颗粒度比如4KB的块大小进行转换,段式则采用更大颗粒度比如2MB的块进行转换,前者颗粒度小可以减小碎片化浪费,但是需要的转换表更大,后者则相反。段页式则混合采用两者,实现均衡,但是设计复杂。RISCV出于简单的设计哲学考虑采用固定的页式。实现时实际使用多级转换表,可以按需使用几级,比如Sv39最多3级,实际也可以使用1级对应1GB颗粒度,使用两级对应2M颗粒度,使用3级对应4K颗粒度。

基本概念

PTE

即页表条目page table entries 页表的大小与页的大小完全相同4KB,必须始终与页边界对齐,页表4KB中包含512(Sv39)或者1024(Sv32)个页表条目

Sv32页表大小为4KB,包含2^10(1024)个页表条目(PTE),每个条目4字节,1024x44KB

V位表示PTE是否有效,如果为0,PTE中的所有其他位都是不可访问的,可以由软件自由使用。权限位RWX分别指示页面是否可读、可写和可执行。当这三个值都为零时,PTE是指向页表下一级的指针;否则,它是一个叶子PTE。可写页面也必须标记为可读;相反的组合保留供将来使用。

RWX可能的组合如下

X

W

R

含义

0

0

0

指向下一级页表

0

0

1

只读页

0

1

0

保留

0

1

1

可读写页

1

0

0

只可执行页

1

0

1

可读可执行页

1

1

0

保留

1

1

1

可读写可执行页


二级索引对应二级PTE,每一级PTE都可能是叶子PTE,即实际可能只有1级或者2级。

第二级对应4KB页面,第一级对应4KBx2^10=4MB页面。

Sv39页表大小为4KB包含2^9(512)个页表条目(PTE),每个条目8个字节,512x84KBSv39页表项多了一些属性,具体可以参考规格书。

三级索引对应3PTE,每一级PTE都可能是叶子PTE,即实际可能只有1级,2级,或者3级。第三级对应4KB页面,第二级对应4KBx512=2MB页面,第一级对应2MBx512=1GB页面。每个页面都必须在虚拟和物理上与等于其大小的边界对齐。如果物理地址未充分对齐,则会引发页面错误异常

即虚拟地址到物理地址映射,一级索引,只能按照1GB颗粒度转换,二级索引可以按照2MB颗粒度转换,三级索引可以按照4KB颗粒度转换。

PPN

即物理页号physical page numberPTE中有512个页表条目,PPN即用于表示是哪一个,512个即0~511只需要9位即可表示。

根页表的物理页存储在satp寄存器的PPN字段中。即要查找根页表的物理地址,即根据SATP.PPN << 12(x4KB)即可。

VPN

虚拟页号即virtual page number

对于Sv32 VPN10位,虚拟地址中2VPN,代表二级索引

对于Sv39 VPN9位,虚拟地址中3VPN,代表三级索引。

每一个VPN表示每一级物理页表索引VPN的地方,是下一级的页表条目。

虚拟地址

Sv32实现,虚拟地址空间为32

Sv39实现,虚拟地址空间有效位为39位,按页(4KB)划分

取指地址和加载存储有效地址64,高位要和38一样,否则将发生页面错误异常,所以虚拟地址只能使用64位空间的高地址和低地址即(0xFFFFFFFFFFFFFFFF~0xFFFFFFE000000000)(0x0000007FFFFFFFFF~0x0).

linux64位时使用0xffffffe0000000这个高端地址。

27VPN(虚拟地址页号)通过三级页表转换为44PPN(物理地址页号),而12位页偏移转换。

物理地址

物理地址的PPN看成一个整体即可。物理地址的PPN即从叶PTE表项PPN域中读出。

PGD/PMD/PTE

Linux代码中分别会看到pgdpmdpte前缀的变量

对于Sv39即对应的一级,二级,三级页表,分别对应1GB2MB4KB颗粒度。

转换过程

Sv39为例

1.第一步根据satp找到根页表的物理地址a

a=satp.ppn×PAGESIZE,设i=LEVELS-1。(对于Sv32,PAGESIZE=2^12LEVELS=2;对于Sv39 PAGESIZE=2^12LEVELS=3)satp寄存器必须处于活动状态,即有效特权模式必须是S模式或U模式,MODE设置为Svxx模式。

2.根据虚拟地址的vpn查找对应的表项pte的值

pte=(a+va.vpn[i]×PTESIZE),()表示该处的值。(对于Sv32,PTESIZE=4B,对于Sv39,PTESIZE=8B)

如果访问pte违反了PMAPMP检查,则引发与原始访问类型对应的访问故障异常。

3.检查pte的有效性

如果pte.v=0,或者pte.r=0pte.w=1,或者如果pte中设置了为未来标准使用保留的任何位或编码,停止并引发与原始访问类型对应的页面错误异常

4.pte有效继续

PTE有效。如果pte.r=1pte.x=1,则转到步骤5。否则,此PTE是指向页表下一级的指针。i=i-1如果i<0即找到最后一级了还不是叶子PTE则停止并引发与原始访问类型对应的页面错误异常。否则,设a=pte.ppn×PAGESIZE,然后转到步骤2,继续下一级索引

5.叶子PTE处理

发现了叶子PTE。根据当前特权模式和mstatus寄存器的SUMMXR字段的值,确定pte.rpte.wpte.xpte.u位是否允许请求的内存访问。如果没有,停止并引发与原始访问类型对应的页面错误异常。

6.大页异常处理

如果i>0(未到最后一级,说明是大页),pte.ppn[i-1:0]≠0,则这是一个未对齐的页;停止并引发与原始访问类型对应的页面错误异常。

7.正常大页处理

如果pte.a=0,或者如果原始内存访问是store存储并且pte.d=0:

如果实现了Svade扩展,停止并引发与原始访问类型对应的页面错误异常。

如果storepte将违反PMAPMP检查,则引发与原始访问类型对应的访问故障异常。

以原子方式执行以下步骤:

pte与地址a+va.vpn[i]×PTESIZE处的pte值进行比较

如果值匹配,则将pte.a设置为1,如果原始内存访问是store存储,则也将pte.d设为1

如果比较失败,返回步骤2

8.转换成功

转换后的物理地址如下:

pa.pgoff = va.pgoff

如果i>0,则这是一个页转换,pa.ppn[i-1:0]=va.vpn[i-1-0](后级直接使用虚拟地址的vpn)

pa.ppn[LEVELS-1:i] = pte.ppn[LEVELS-1:i](前面已经转换的级,从表项pte中取出ppn)

对于Sv39

只用1级则,pte是一级的pte

pa.ppn[2]=pte.ppn[2] 1GB使用VA的低1GB

只用2级则,pte是二级的pte

pa.ppn[2:1]=pte.ppn[2:1] 2MB使用VA的低2MB

3级则,pte是三级的pte

pa.ppn[2:0]=pte.ppn[2:0] 4KB使用VA的低4KB

该算法中对地址转换数据结构的所有隐式访问都是使用宽度PTESIZE执行的。

2.3 TLB

Translation Lookaside Buffer,上述虚拟地址到物理地址的转换过程可以看到要多次读物理地址,这样效率是很低的。所以硬件上增加TLB对虚拟地址-物理地址的映射关系进行缓存,之前已经解析过的下次就无需再按照上述算法解析,而是直接从缓存取出即可。

TLB即可认为是VA-PA映射关系的CACHE

三. relocate过程

Relocatesetup_vm即设置好MMU页表之后执行。代码位置heas.s

.align 2#ifdef CONFIG_MMUrelocate:  /* Relocate return address */  li a1, PAGE_OFFSET  la a2, _start  sub a1, a1, a2  add ra, ra, a1
/* Point stvec to virtual address of intruction after satp write */ la a2, 1f add a2, a2, a1 csrw CSR_TVEC, a2
/* Compute satp for kernel page tables, but don't load it yet */ srl a2, a0, PAGE_SHIFT li a1, SATP_MODE or a2, a2, a1
/* * Load trampoline page directory, which will cause us to trap to * stvec if VA != PA, or simply fall through if VA == PA. We need a * full fence here because setup_vm() just wrote these PTEs and we need * to ensure the new translations are in use. */ la a0, trampoline_pg_dir srl a0, a0, PAGE_SHIFT or a0, a0, a1 sfence.vma csrw CSR_SATP, a0.align 21: /* Set trap vector to spin forever to help debug */ la a0, .Lsecondary_park csrw CSR_TVEC, a0
/* Reload the global pointer */.option push.option norelax la gp, __global_pointer$.option pop
/* * Switch to kernel page tables. A full fence is necessary in order to * avoid using the trampoline translations, which are only correct for * the first superpage. Fetching the fence is guarnteed to work * because that first superpage is translated the same way. */ csrw CSR_SATP, a2 sfence.vma
  ret

调用位置如下

  /* Initialize page tables and relocate to virtual addresses */  la sp, init_thread_union + THREAD_SIZE  mv a0, s1  call setup_vm#ifdef CONFIG_MMU  la a0, early_pg_dir  call relocate#endif /* CONFIG_MMU */

首先

  /* Relocate return address */  li a1, PAGE_OFFSET  la a2, _start  sub a1, a1, a2  add ra, ra, a1

加载链接基地址到a1,运行基地址到a2,然后计算他们的差,

然后ra加上这个偏差,即将ra从运行地址转到了链接地址(虚拟地址)

这样下次函数返回就是使用虚拟地址了。

怎么由物理地址切换到虚拟地址运行呢,设置MMU即设置SATP之前都是使用的物理地址,

当设置SATP的一刹那,就会使能MMU此时就会把当前的物理的地址作为虚拟地址去解析了,而当前的物理地址0x80200000后面都不是合法虚拟地址且没做映射,那么就会产生异常。那么怎么切换过去呢?这里取了个巧,既然这里会产生异常进入stvec对应的地方执行,那么如果我们将stvec设置为对应的虚拟地址不就好了吗。Relocate就是这么做的。

我们继续看代码

  /* Point stvec to virtual address of intruction after satp write */  la a2, 1f  add a2, a2, a1  csrw CSR_TVEC, a2

这里la a2,1f即加载后面标志1:位置的运行地址(此时是物理地址0x8020000范围)a2

然后加上a1(虚拟地址-物理地址偏差), 就得到了对应的虚拟地址,然后设置到stvec中去。

所以设置satp导致异常时就会跳到后面标志1:的位置执行,且是已经使能MMU后的虚拟地址。

下面这个代码,

  /* Compute satp for kernel page tables, but don't load it yet */  srl a2, a0, PAGE_SHIFT  li a1, SATP_MODE  or a2, a2, a1

a0来自于参数

  la a0, early_pg_dir  call relocate

a2为将要设置到satpppnmodeearly_pg_dirsetup_vm中已经设置好的根页表。

然后

/*   * Load trampoline page directory, which will cause us to trap to   * stvec if VA != PA, or simply fall through if VA == PA.  We need a   * full fence here because setup_vm() just wrote these PTEs and we need   * to ensure the new translations are in use.   */  la a0, trampoline_pg_dir  srl a0, a0, PAGE_SHIFT  or a0, a0, a1

先设置临时根页表trampoline_pg_dirtrampoline_pg_dir页表是在setup_vm中设置,设置了链接虚拟地址0xffffffe00000000到加载物理地址0x8020000的映射关系。

这样再刷新TLB

sfence.vma

再设置根页表为trampoline_pg_dir

csrw CSR_SATP, a0

此时虚拟地址0xffffffe00000000对应到物理地址0x8020000

设置satp之后,由于当前pc0x8020000范围非法,产生异常进入stevc执行即跳到后面的1:处执行,此时使用的是虚拟地址0xffffffe00000000了,刚好也设置了MMU的页表trampoline_pg_dir

0xffffffe00000000映射到了0x8020000,所以实际还是访问的是之前的物理地址的内容,只是程序PC已经开始使用虚拟地址了。

接下来执行1:

.align 21:  /* Set trap vector to spin forever to help debug */  la a0, .Lsecondary_park  csrw CSR_TVEC, a0

这里la会编译为auipc指令,而pc是虚拟地址了,所以设置的stvec也是虚拟地址了,

.Lsecondary_park实际对应物理地址还是原来的地方

重新设置gp寄存器,类似的也是虚拟地址了,但是对应的物理地址还是原来的地方

  /* Reload the global pointer */.option push.option norelax  la gp, __global_pointer$.option pop

刚才使用的临时根页表,其作用是映射虚拟地址0xffffffe00000000x80200000,这样使能MMU后切换到虚拟地址后能继续访问原来物理地址的内容。

此时再切换到前面设置好的a2,即early_pg_dir对应的根页表,该页表设置了更加完整的映射关系,包括设备树等其他区域。

/*   * Switch to kernel page tables.  A full fence is necessary in order to   * avoid using the trampoline translations, which are only correct for   * the first superpage.  Fetching the fence is guarnteed to work   * because that first superpage is translated the same way.   */  csrw CSR_SATP, a2  sfence.vma
ret

当然这个页表也要映射0xffffffe00000000x80200000,否则切换之后无法访问原来的物理地址的内容。

这里是通过setup_vm的如下代码实现的

/*     * Setup early PGD covering entire kernel which will allows     * us to reach paging_init(). We map all memory banks later     * in setup_vm_final() below.     */    end_va = PAGE_OFFSET + load_sz;    for (va = PAGE_OFFSET; va < end_va; va += map_size)        create_pgd_mapping(early_pg_dir, va,                   load_pa + (va - PAGE_OFFSET),                   map_size, PAGE_KERNEL_EXEC);

临时页表对应的映射是setup_vm的如下代码实现的

    /* Setup trampoline PGD and PMD */    create_pgd_mapping(trampoline_pg_dir, PAGE_OFFSET,               (uintptr_t)trampoline_pmd, PGDIR_SIZE, PAGE_TABLE);    create_pmd_mapping(trampoline_pmd, PAGE_OFFSET,               load_pa, PMD_SIZE, PAGE_KERNEL_EXEC);

此时开始就正式使能MMU使用early_pg_dir根页表了。

四. 总结

这里重点了解下RISCVMMUVA-PA的转换过程,并且了解下relocate的实现方式,这里relocate取了个巧,设置了一个临时根页表对链接虚拟地址0xffffffe000000000到加载物理地址0x80200000进行映射,然后使能mmu时产生异常,切换到提前设置好的异常地址(虚拟地址)运行,实现了无缝切换。

由于临时的根页表和正式的根页表都维护了0xffffffe000000000x80200000的映射,所以由临时根页表可以直接切换到正式根页表,因为切换跟页表MMU都可以正确解析到对应的同一物理地址。







嵌入式Lee
嵌入式软硬件技术:RTOS,GUI,FS,协议栈,ARM,总线,嵌入式C,开发环境 and blablaba....多年经验分享,非硬货不发,带你扒开每一个技术背后的根本原理。
 最新文章