图解｜内存页面迁移技术

科技 2024-07-28 22:01 北京

扫描关注一起学嵌入式，一起学习，一起成长

1. 概述

页面迁移（page migrate）最早是为 NUMA 系统提供一种将进程页面迁移到指定内存节点的能力用来提升访问性能。后来在内核中广泛被使用，如内存规整、CMA、内存hotplug等。

页面迁移对上层应用业务来说是不可感知的，因为其迁移的是物理页面，而应用只访问的是虚拟内存。

内核迁移完成后，更新修改对应页表指向迁移后的页面即可。当然了这里说的不可感知是指业务不太关注，也不需要做对应修改。

实际上有些场景发生页面迁移是业务性能是有影响的，下面会详细描述。

2. 典型场景

我们列举2个内核中发生页面迁移的典型场景。

2.1 NUMA Balancing引起的页面迁移

在典型 NUMA 中，存在多个 node，本地 CPU 访问本地 node 节点对应的 memory 性能会快一些。

Linux 的 NUMA 自动均衡机制会尝试将内存迁移到正在访问它的 CPU 节点所在的 node。如下图所示， CPU24 ~ CPU47 访问不是本地 node 对应的 memory，性能会比较慢，系统会将其迁移到本地 node 对应的 memory 以提升访问性能。

迁移后如下图：

2.2 内存碎片整理

系统使用一段时候后，由于内存碎片的原因，较难满足连续内存需求，如果需要分配连续大块内存，需要进行内存规整以形成大块连续内存，页面迁移是内存碎片整理的基础。

3. 实现分析

3.1 迁移模式

内核中通过接口 migrate_pages 实现页而迁移，分为3个模式。

模式	简介	应用场景
MIGRATE_ASYNC	异步迁移，过程中不会发生阻塞	内存分配slowpath
MIGRATE_SYNC_LIGHT	轻度同步迁移，允许大部分的阻塞操作，唯独不允许脏页的回写操作	kcompactd触发的规整
MIGRATE_SYNC	同步迁移，迁移过程会发生阻塞，若需要迁移的某个page正在writeback或被locked会等待它完成	sysfs主动触发的内存规整
MIGRATE_SYNC_NO_COPY	同步迁移，但不等待页面的拷贝过程。页面的拷贝通过回调migratepage()，过程可能会涉及DMA	migrate_vma_pages

3.2 实现流程

内核文档有描述这个API是怎么工作的。不过这个描述着实是不太友好，不容易在脑海形成画面。

我们通过结合代码实现，把这个转化为流程图：

总结一下，页面迁移过程本质就是分配一个 new_page，解除原有 page 映射，把旧 page 复制到新 page 并建立新 page 的映射。

4. 页面迁移过程用户态访问处理

到这里可能会有疑问：如果在页面迁移过程中，应用发生发访问这个迁移中的页面，会发生什么？

情景1: 旧页面的页表还未解映射, 此时发生缺页可以正常访问原来页面。

情景2: 旧页面解除了映射，但新页面还未建立映射。这时访问会发生等待，需要等新页面建立映射并copy完成页面后才能访问。

情景3: 完成了页面迁移动作，可以正常访问新页面了。

下面我们重点分析一下，当旧页面解除了映射，且新页面未建立映射这个过程中发生了用户态访问，内核的处理流程是怎样的。

首先我们看一下旧页面解除了映射的过程：

static bool try_to_unmap_one(struct page *page, struct vm_area_struct *vma,
       unsigned long address, void *arg)
{
...  
  if (PageHWPoison(page) && !(flags & TTU_IGNORE_HWPOISON)) {

...
  } else if (pte_unused(pteval) && !userfaultfd_armed(vma)) {
...
  } else if (IS_ENABLED(CONFIG_MIGRATION) &&
    (flags & (TTU_MIGRATION|TTU_SPLIT_FREEZE))) { 
    // 页面迁移会设置TTU_MIGRATION标记,走到这个分支来
   swp_entry_t entry;
   pte_t swp_pte;

   if (arch_unmap_one(mm, vma, address, pteval) < 0) {
    set_pte_at(mm, address, pvmw.pte, pteval);
    ret = false;
    page_vma_mapped_walk_done(&pvmw);
    break;
   }

   /*
    * Store the pfn of the page in a special migration
    * pte. do_swap_page() will wait until the migration
    * pte is removed and then restart fault handling.
    */
    // 迁移中的页面, 生成了一个swap entry, 并写到PTE页表项中
    // 当再次发生缺页时会走进do_swap_page等待直到迁移完成.
   entry = make_migration_entry(subpage, pte_write(pteval));
   swp_pte = swp_entry_to_pte(entry);
   if (pte_soft_dirty(pteval))
    swp_pte = pte_swp_mksoft_dirty(swp_pte);
   if (pte_uffd_wp(pteval))
    swp_pte = pte_swp_mkuffd_wp(swp_pte);
    // 当设置了迁移标记的Swap entry到pte后， 这个旧页面就不能像原来那样的顺利被访问了
   set_pte_at(mm, address, pvmw.pte, swp_pte);
   /*
    * No need to invalidate here it will synchronize on
    * against the special swap migration pte.
    */
  } else if (PageAnon(page)) {
   swp_entry_t entry = { .val = page_private(subpage) };
   pte_t swp_pte;
   /*
    * Store the swap location in the pte.
    * See handle_pte_fault() ...
    */
   if (unlikely(PageSwapBacked(page) != PageSwapCache(page))) {
    WARN_ON_ONCE(1);
    ret = false;
    /* We have to invalidate as we cleared the pte */
    mmu_notifier_invalidate_range(mm, address, address + PAGE_SIZE);
    page_vma_mapped_walk_done(&pvmw);
    break;
   }
...
}

解除映射后，再次发生映射就走到 do_swap_page 中了。

vm_fault_t do_swap_page(struct vm_fault *vmf)
{
...
  // 获取到这是一个在迁移过程的的PTE的标识
 entry = pte_to_swp_entry(vmf->orig_pte);
 if (unlikely(non_swap_entry(entry))) {  // 不是传统的Swap entry
  if (is_migration_entry(entry)) {      // 是迁移标记进来的
     /* 等待migration的完成。本质是在等待旧page释放其page lock
      * 最终调用到 wait_on_page_bit_common
      */
   migration_entry_wait(vma->vm_mm, vmf->pmd, vmf->address);
  } 
...
}

总结一下：

页面迁移前，首先会获取旧页面和新页面的页面锁 PG_lock，在解除映射的时候传入了由于页面迁移导致的解映射标记 TTU_MIGRATION，设置了此标记会生成一个带页面迁移标识的 swap_entry 设置到 pte 中。

在设置好的那一刻走，应用进程无法很顺利地访问这个页面了，需要通过 do_swap_entry 路径。

假如此时应用进程访问了这个页面，会走进到 do_swap_entry，取出带迁移标识的 swap_entry，识别到这个标识，会等待页面锁释放。页面锁只有在页面迁移完成后才会被释放，也就是会发生等待直到页面迁移完成。

5. 用户态如何避免发生页面迁移

上面我们已经知道，如果有页面迁移过程中发生用户态访问，很可能是需要发生等待其迁移完成，这个过程需要一定耗时。而有时的场景我们是需要避免此种时延抖动，那有什么办法呢？

方法就是让这个页面短时间内变得不可移动。

int migrate_page_move_mapping(struct address_space *mapping,
  struct page *newpage, struct page *page, int extra_count)
{
...
  if (page_count(page) != expected_count) 
   return -EAGAIN;
...
 return MIGRATEPAGE_SUCCESS;
}

可以看到当发生页面复制过程中，如果 page 的引用计数不符合预期（期望为0）时，这时系统认为有人在使用，不适用做迁移。那么，我们只需要增加 page 的引用计数就可以。

可以在不想被迁移的时间段开始前通过 pin_user_pages 这样的接口，结束时 unpin 就可以了。接口最终会调到 try_grab_page 增加引用计数。

bool __must_check try_grab_page(struct page *page, unsigned int flags)
{
...
   refs = GUP_PIN_COUNTING_BIAS; // #define GUP_PIN_COUNTING_BIAS (1U << 10)
   page_ref_add(page, refs);
  }

  return true;
}

原文：https://zhuanlan.zhihu.com/p/610249696

文章来源于网络，版权归原作者所有，如有侵权，请联系删除。

关注【一起学嵌入式】，回复“加群”进技术交流群。

觉得文章不错，点击“分享”、“赞”、“在看” 呗！

http://mp.weixin.qq.com/s?__biz=Mzg3ODU3Nzk3MQ==&mid=2247512212&idx=1&sn=5aa7ad651b779b4a5ab1cfa141bb8de2

一起学嵌入式

结伴而行，RTOS、Linux编程、C/C++，以及经验分享、行业资讯、物联网等技术知识。一起学习，一起成长

最新文章

嵌入式开发中常用的几种通信接口总结

EtherCAT协议介绍

使用 char 类型的变量一定要注意

关于RT-Thread，玩点不一样的

分享一个跨平台通用的 GUI 框架

嵌入式软件开发，要注意兼容性问题

这里有好多免费开发板，助力嵌入式开发（白送，不用评测！）

嵌入式C开发，全局变量越少越好

分享一些实用的嵌入式 C 代码

嵌入式软件开发一定要搞懂原码, 反码, 补码

PID控制算法精华和参数整定三大招

这些题目助你学习C语言递归调用

嵌入式软件常用的轻量级校验算法

嵌入式C语言常用的代码模块库

嵌入式软件的自动初始化机制

两种 C 语言之间的差异

分析一段莫名的延时输出问题

基于状态机的通用接收模块

带你了解嵌入式行业中的创新性LGA封装

嵌入式Linux程序如何开机自启动

可以分析单片机跑RTOS运行情况的工具

一图展示常用的几种网络IO模型

一款全开源的智能手表项目

图解｜内存页面迁移技术

动图展示软件版本号的含义

嵌入式软件的架构设计

射频工程师晋升路线，从小白到大佬，这一篇就够了！

推荐给嵌入式工程师一些常用软件工具

一个通用的 LED 显示模块，基于面向对象和简单工厂模式

以HelloWorld来分析程序的运行机制

MCU固件的几种Flash划分方式

详细总结 OPC UA 协议

CAN通信之DBC文件详解

总结单片机拉电阻的作用

总结电机控制相关的关键内容

一款好用的串口调试助手，支持绘图和关键字高亮

一个 TCP 发送缓冲区问题的解析

STM32双定时器+ADC+DMA实战案例

手把手教你嵌入式 linux 根文件系统原理和制作方法

一款开源的多功能串口工具，小而美且灵活多变

如何排查I2C通信失败的问题

明明硬件比软件难，但为什么硬件工程师待遇还不如软件

推荐一款超大容量瑞芯微RK3588J工业核心板

嵌入式软件的业务逻辑代码应该如何写

基于 EEPROM 的简易类文件的数据读写库

一名嵌入式工程师的工作日常

讲解MCU串口如何自动识别波特率

一图展示CPU 飙升到 100% 的 9 大原因

了解一下华为推出的编程语言--仓颉

嵌入式Linux日志log快速定位方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉