封面图来源:
https://www.pexels.com/zh-cn/photo/1427107/
作者:Taozeng Zhu, Nicholas Teck Boon Yeo, Sarah Yini Gao, Gar Goei Loke
编者按
本次解读的文章发表于 Manufacturing & Service Operations Management,原文信息:Zhu, T., Yeo, N. T. B., Gao, S. Y., & Loke, G. G. (2023). Inventory-responsive donor-management policy: A tandem queueing network model. Manufacturing & Service Operations Management, 25(4), 1585-1602.
关键词:血液采集;捐献者管理;易变质库存管理;人道主义运营;管道队列
问题背景
输血作为许多医疗过程中必不可少的环节,每年可以拯救数百万记生命。随着现代医学技术的复杂性增加,以及全球人口的老龄化,该技术对于血液制品的需求也随之上涨。然而,如何保证血液制品的供应以及减少浪费也是一个巨大的挑战。因为除了血液制品本身的极短的保质期、供应量波动所带来的管理困难,许多国家的合格血液捐献者的群体人数也在逐年降低。因此如何满足逐渐增加的血液制品的需求、减少可能的浪费,就成为了血液供应管理的关键问题。
决策者通常有两种手段来管理血液供应:招募更多的新捐赠者,激励现有捐赠者使其再次/多次进行捐赠 (donor retention). 然而在本文研究的新加坡,初次捐赠者的比例大概在22%左右,说明第一种方法的效果有限。所以血液库往往会采取方式激励捐献者 (donor incentivization) 来维持现有的血液供应库存。
通常来讲,捐赠者激励根据是否采用金钱奖赏(monetary rewards) 分为两类。大多数国家同世界卫生组织 (World Health Organization WHO) 一道,对经济类型的奖赏持保守态度,因为金钱奖赏可能会刺激一些非法获利的鲜血行为,例如,捐赠者可能为了获利,隐瞒自身不满足血液制品安全规范的身体信息。无论是否使用金钱奖赏,如何设计有效的奖励机制来改变目标人群执行目标行为的概率,就是管理血液捐赠者的关键问题。
如今有三种常见的激励政策:
直接激励:当血液库中的库存低于阈值,血液库的志愿者会直接联系尽可能多的血液捐献者。 间接激励:新加坡红十字会的网站上会标注不同血液制品的库存量,来激励特定血型的捐赠者献血。
注册机制 (Registry mechanism): 该机制允许捐献者自愿加入机制,该机制要求捐献者在血液短缺时被召集起来献血。
以上各种激励政策的目的是提高捐献者献血行为的概率 (probability of donation), 本文敏锐的捕捉到了这些机制没有涉及的问题:什么样的政策是最优的,什么样的政策可以同时减少血液短缺和浪费。为了解答以上问题,描述血液库存的模型需要至少能够刻画以下三种因素:
能够捕捉到血液供应、需求随时间的变化;例如,在农历春节前后,由于文化民俗等传统观念印象,新加坡的献血量往往会下降。 能够包含时间相关的硬约束:血液制品的42日有效期,捐献者两次献血之间最少间隔3个月的观察窗口期。 复杂的内生性:捐献者对与现阶段激励政策的反应将影响下一阶段的激励政策的制定决策。
方法论
常规方法
动态规划 (dynamic programming): 动态规划方法常用于分析和找到某些情况下的最优策略。然而,由于本文的模型设定中包括有限时间窗口,使得追踪血液供应的年龄 (age) 成为必要,增加了状态空间的复杂性,因此过去的动态规划 (dynamic programming) 方法在本文的案例中并不适用。
排队系统 (queueing system): 常见的排队系统模型致力于对排队过程的刻画,而能够很好的用于政策设计的问题。同时这类模型通常会假设各种状态是稳定的 (steady state) 以便对排队模型进行分析,然而这并不符合本文问题的基本性质,即不同状态之间概率不独立、且本质上都是非遍历态 (transient state).
机制设计及贝耶斯劝说 (Bayesian Persuasion): 机制设计方法是用来刻画激励问题的最经典的方法之一。由Kamenica and Gentzkow (2011) 提出的贝叶斯说服模拟了一下基于信息的激励方法:将单个知情的委托人选择的信息传达给不知情的代理人,以激励(说服)采取某种有利于委托人的行动。该方法被应用于价格差异化、医疗测试、以及拍卖等多种问题中。然而在血液捐赠问题中,为了刻画依赖于现有库存、捐献者受激励影响等特征,贝叶斯劝说模型必须嵌入到献血者和库存的随机过程中进行分析。Lingenbrink and Iyer (2019) 的文献中采用了这类模型,但其模型仍然添加了稳定状态的假设。此外,机制设计方法中对效用函数 (utility functions) 和行为理性 (behavioral rationality) 的设定进行了强假设。这些假设实际上极大地压缩了策略优化的空间,也是本文在模型设计的过程中想要避免的。
除了对于无法处理复杂的状态空间、稳定状态假设、效用函数结构假设,以上方法还忽略了捐献者对血液供应的动态影响。
本文方法及贡献
为了解决前文提到的问题,本文采用了管道排队 (Pipeline Queues, P-Queues) 模型。该框架基于非遍历态的条件设定,得到的策略是状态依赖的 (state-dependent),并且该策略多项式时间可解的。本文模型方法具有以下贡献:
提供了实用和易操作的献血者管理决策支持工具:现有文献内容大多集中在对模型的理论分析,且模型基本仅关注血液库存(供应来自外源性),或者仅关注对供应(捐献者)的管理,而忽略了实际的需求。而本文则解决了:如何根据现有库存水平做出决策,来管理捐献者。
具有灵活性和应用性:本文模型可以适用于多种激励方案,如考虑多类型的捐献者,多类型的血型等;同时该模型亦适用于不同的时间结构。本文的耦合网络模型能够分别处理需求和供应动态,且P-Queue模型可以很容易地处理硬时间截断,例如商品保质期的约束。因此,本文的模型框架也可以推广到其他应用,例如,双边市场(家庭共享)和具有社会影响的供应链(慈善组织、食品捐赠)。
拓展了P-Queue技巧的理论:本文模型松弛了原模型中部分独立性假设;引进了单周期延迟缩减 (reducing one-period delay) 的概念;发现了模型中几个耦合的排队系统。
具有更优越的表现:与现有模型对比,本文模型能够同时减少短缺和浪费。作者认为其模型能够考虑非平稳的未来需求,并且使用了更多关于状态的实时信息,因此获得更好的表现。同时本文模型的实验结果也可以提供战略层面的参考:
a. 维持高水平的库存有助于满足需求,但需要更好地管理旧血以减少浪费。
b. 在盈余期间激励低反应性捐赠者,有助于维持高水平的积极捐赠者,减少低反应性捐赠者中的辍学现象。
c. 维持一个合格的高反应性捐赠者的最小库容,可以使其有更大的能力对长期短缺做出反应。
模型构建
结构及参数、变量设计
本文的模型采取了三个队列服务器的管道结构 (pipeline queue), 分别代表血液库存,激励前的献血者和激励后的献血者。如下图一,激励前、后的献血者队列组成了串、并联的网络,二者都可以触发血液库存队列的流入。
图一:激励型献血网络
为了分析P-Queue模型,对时间参数做出一下定义:
: 模型模拟的最大时间。
: 指标的最大当前延误。
, , 类似的定义和.
来跟踪服务器或队列中每个作业的当前延迟。假设.
对于未被激励的献血者队列 (unincentivized donors) 中的队列、服务器有定义如下:
观察队列 (observation queue)是指每个献血者在献血完成之后必须回到的观察队列。在这个队列中,献血者必须度过长度为个单位时间的安全观察窗口期。
:代表队列中,在时间时,已经观察了个单位时间的献血者数量。
合格献血者服务器 (eligible donors) 紧接在观察队列之后,服务器中的“任务”代表通过安全观察期的献血者。, 则代表服务器中的“合格”献血者的数量,这些献血者在完成安全观察期之后个单位时间之后,在时间时仍未进行献血。
献血者是否从观察队列进入合格献血者服务器,由辅助变量决定。且当时,.
进入观察队列的捐赠者主要分为两类,一类是再次献血的捐赠者,一类是初次献血的捐赠者。这部分捐赠者数量由表示。
流出观察队列的捐赠者一部分进入激励后的献血者队列,一部分则是直接退出 (dropouts), 该部分捐赠者的决策变量在之后为.
激励后的献血者队列 (incentivized donors) 也有类似的定义,不过涉及的决策变量更多。
“合格”献血者流出之后,决策变量,表示在时刻个时期以前获得资格的捐赠者的比例,他们将接受激励,并进入新的服务器。未收到激励就献血的捐赠者,则会在献血之后重新进入观察队列。 激励后献血者服务器 (incentivized donors)由参数表示在激励措施实施后的个时间段内,时刻尚未献血的捐赠者的数量。 为使队列的结构符合P-Queue模型的定义,作者在这一步添加了辅助的等待队列 (holding queue) 和决定献血者是否分配给服务器的辅助决策变量. 最终收到激励就献血的捐赠者,也会在献血之后重新进入观察队列。
对于血液制品的库存、库存的使用情况,作者又进行了特别的定义:
对血液制品的需求为时间非齐次的、随机需求,在时刻用表示。 队列中的“任务”表示一个血包 (blood packet), 血液库存队列中在时刻已经等待了个时间段的血液包数量用表示。为相应的决策变量,表示是否用库存满足需求. 为血液制品的保质期,因此当使,单位数量的血液包就会被浪费。
以下表格总结了模型中的参数、变量等信息。
表格1:模型参数及变量总览
关键假设
作者对模型中的血液供应需求、献血者决策、激励机制等三类参数进行了假设:
假设1: 对于捐赠者的流入和和血液制品需求分布可以是时间非齐次的,但在时刻之间是相互独立的。作者假设它们的矩生成函数存在。 假设2: 每个捐赠者的捐赠决策独立于任何其他捐赠者。更进一步,作者假设在任意时刻,捐赠者在下一个时间段(没有激励)是否捐赠的概率是相同的,条件是他们自成为合格捐赠者以来的个时间段内没有捐赠;记为. 作者希望将激励机制表达为考虑影响捐赠者捐赠概率的机制,而不是只考虑包含或排除某些献血者的政策。于是作者设定了一下条件: 假设3a: 激励可以发生在献血者“合格”以来,任意时间段之后、或任意时刻; 假设3b: 对于任一献血者者而言,在激励后的献血概率独立于激励前的概率; 假设3c: 在给定激励的情况下,下一个时间段内的献血概率在捐赠者之间是独立的。这个概率,在任意时刻, 对于所有的捐赠者来说是相同的,只要他们在同时受到激励;作者用表示这种概率; 假设3d: 激励行为在每个时间段都先于献血行为发生。
动态影响
在使用约束刻画模型条件之前,本文首先说明了系统中不同状态献血者和对应服务器队列之间的动态关系。
不同献血者状态之间的动态关系
对于合格献血者数量(eligible donors )有以下两个动态关系: 时刻的的合格献血者数量等于当前所有已经通过观察期的献血者数量之和: 时刻且已经等待了个时间段的合格献血者数量取决于上一个时刻()受到激励的献血者中没有献血的志愿者数量、本时刻没有自发献血的概率,并服从Binomial分布: 时刻且已经等待了个时间段的合格献血者中献血的志愿者数量有两个去向: 直接完成直接完成献血后回到观察队列 (observation queue) 的志愿者数量: 收到激励后献血并进入等待队列 (holding queue) 的志愿者数量: 对于受到激励但还未献血的志愿者数量() ,本文根据概率分布、决策变量的独立性假设,得出以下命题: 命题1:不同时刻,合格献血者数量概率分布相互独立。
同时,根据定义可以得到受到激励但还未献血的志愿者数量的概率分 ,由此可以推导出以下命题。 命题2:不同时刻,受到激励但还未献血的志愿者数量概率分布相互独立。
不同等待队列之间的动态关系
根据定义,等待队列 (holding queue) 的输入数量有以下两种情况: 等待队列中0延误的献血者数量有如下表达式:其中为直接进入激励后的献血者服务器 (incentivized donor server)的志愿者的数量。为本文首次引入P-Queue模型的变量,其意义在于允许受到激励的志愿者直接献血,而不需要在等待队列中等待至少一个单位时间。 等待队列中其他被延误的献血者数量有如下表达式:
根据定义,观察队列 (observation queue) 的输入人数则有三种来源:新进入系统的(初次)献血志愿者,受到激励完成献血的志愿者,未受到激励完成献血的志愿者。由此,本文提出0延误,和有延误情况下的队列数量表达式: 观察队列中0延误的献血者数量有如下表达式: 观察队列中其他被延误的献血者数量有如下表达式:
血液库存的动态关系
首先,血液库存的增加等价于一个志愿者完成献血动作,因此血包库存增加的数量等于观察队列的输入人数。这里增加的项允许对刚进入库存的血包进行即时调配(等待时间为0)。
血液库存的输出则直接用于满足随机的需求。
约束条件
P-Queue模型的的优势之一是可以用约束来平衡血液分配问题中的多个目标。一般来讲血液库的管理目标是在满足血液需求的同时尽量减少损耗。常规的优化方法中可以讲这两个写为一个组合目标,以量化血液短缺与浪费成本之间的平衡关系,然而这种平衡实际上难以被量化。因此,在P-Queue模型的框架中,这两个目标分别被表达为约束条件1和约束条件2,管理者从而可以找到一个可行的策略,使其满足需求的概率很高,并保持损耗在一定水平以下。
约束条件1:
约束条件2:
对于P-Queue模型的其他性质则可以使用约束3来表示,其中的取值可以决定约束限制的对象和具体含义。
约束条件3:
, 约束3实际上是对服务器、队列的容量设置上限。 , 约束3对服务器、队列的等待时间设置约束。 , 约束3实际上使库存采用FIFO策略;类似的,当, 约束3实际上迫使库存采用LIFO策略。 当时, 约束3可以转变为对于激励政策的预算上线约束:;
除了以上三条约束,模型还必须刻画变量之间的关系约束(约束条件4)和献血流程相关设定约束(约束条件5、6)。约束条件4表示“合格”献血者数量不得多于已经在观察队列中的有献血者。约束条件5则表示了献血者必须通过安全窗口期之后,才能满足条件成为“合格”献血者,被推入“合格”献血者服务器。约束条件6则刻画了过期血包不能使用的规则。
约束条件4:
约束条件5:
约束条件6:
值得注意的是,以上约束都是状态变量 () 和决策变量 () 的线性表达式;因此作者可以对模型进行一定程度的重构和简化。
模型重构
模型重构的第一步,是将满足随机约束的概率转化为由参数控制的表达式。
对于小于等于0的随机约束,根据Aumann和Serrano (2008)对风险系数(riskiness index)的定义,可以将其表示为 由此,本文推导出以下命题3:
其中,可以被视为模型的整体风险水平(global risk level), 是整个模型的优化目标变量。则是不同的时间, 约束类型设定的风险水平参数(由表示),本文设定了两种风险水平。由此,本文模型可以由以下公式表征:
模型重构的第二步,是将代理约束转换为对于多个决策变量联合凸函数表达式。同时的可加性使得约束表达式的第二项可以和变量剥离,同理需求约束中的需求参数也可以和状态变量剥离。
a. 命题4: 对于约束, 可以将其重写为以下形式:
其中
b. 命题5: 对于受激励变量动态影响的变量, 本文引入辅助变量来 表达约束:
其中, 且其边界值定义为, 。这里替换的目的是使得对于辅助变量和表现为 凸函数。
c. 命题6: 关于队列的约束表达则可以表示为:
同时本文创新性的描述了同一时间的队列的多个流入(inflow)对象之间的非独立关系。举例来说,考虑两个在时刻,处于持有队列中的捐赠者,其中两个都在时刻到达合格的捐赠者服务器,但一个在被激励之前停留了一个时间段,另一个则停留了两个时间段。无论哪种方式,这两条路径的捐赠者都属于同一个队列,因此,他们对 的贡献不可能是独立的。
d. 命题7: 由此本文推导出以下的约束形式:
应用性分析
本文模型有从两个方向贴近献血库存问题复杂的现实情况:
通过在每个状态变量和决策变量上增加一个额外的类别指数,本文模型可以对不同捐献者类别(不同血型)的一般情况进行建模。 本文模型包含多个激励政策的参数决策变量,这些参数可以以不同的方式改变捐赠的概率,同时也包含是否使用某类激励政策的变量。
数值实验
实验场景及对比模型设定
本文对比的模型为Heger et al. (2020)中的两类献血者问题 (wo-donor-class problem), 对比文献中的将低响应 (low responsive)、高响应 (high responsive) 两类捐献者的献血概率定义为关于捐献者响应献血要求、或得到激励之前的时间 (time prior to donation or incentivization)。由此,该参数可以直接转化为本文中的概率参数和.
本文设定的周期数量为, 每个周期代表3周。同时观察期长度为, 血包的保质期为, 最长捐献时间为36周,即.
而捐献者的输入分布和需求的分布则是本文自行设定的:捐献者流入的平均值为53 ,可使捐献者池的平均大小随时间保持大致一致。而需求的平均值则略大于没有激励的新捐献者和重复捐献者的合并平均捐献率,从而迫使模型使用激励政策。
此外,对比文献中仅描述了两类献血者的总数,而没有关于在同时刻其不同延误时间的人数分布。因此,本文的实验采取了热启动,首先对模型进行了100次模拟,将在无激励政策下达到接近稳态的结果分布重新输入模型进行求解。
本文的决策变量为且只需要求出时的决策变量即可,这样可以允许在时间的滚动窗口下多次进行新的求解。同时,本文模型仅对受到激励的捐赠者总数做出限制(不超过80)。
实验结果对比
由于本文的目标是减少浪费和短缺的情况,作者多次实验对比的政策,并调整出了和本文P-Queue (PQ) 模型浪费相似(SW, similar wastage)、短缺相似(SS, similar shortage)的两套参数进行对比。
同时,本文也是设定了需求平稳、需求周期性波动、需求平稳且有激增三组实验。下图二为三种实验场景下,对比策略达成的效率边界和PQ策略的对比。
图二: PQ策略与不同对比策略的比较(预算为80)
下表则是需求平稳的实验设定下,最佳SS策略,SW策略和PQ策略的实验结果:
表二:最佳参数的对比策略和PQ策略的实验表现对比
作者分析认为,PQ策略优于对比策略的原因有二:
PQ模型可以决策所有对应的激励策略,而对比策略中的决策变量的取值对所有都是一致的。 对比政策只使用了当期总库存的信息。相比之下,PQ策略则利用了更细粒度的血包到期时间分布 (time-to-expiry distribution) 的信息以及捐献者的献血到当前时间 (time-since-donation)的信息。
PQ政策具有前瞻性,能够利用未来的信息或库存的预期变化来决定其激励战略,在面对需求波动、需求激增的场景时,PQ政策表现更具有鲁棒性。而对比政策是被动的——只有在短缺时才会激励捐助者,这可能是导致SS政策、SW政策在非平稳需求的情况下短缺和浪费都显著增加的原因。
策略结构
本文为了比较三种策略在不同需求情况下的表现,取得最终被激励的献血者数量、将其作为比较多单一指标。其中PQ政策同时激励高响应、低响应两类捐献者,高响应捐献者数量在下图中分别表示为 "PQ high", "PQ" 曲线则表示两类捐献者受激励的数量总和。
图三:PQ策略及SW策略最终被激励着献血数量对比(上图)
PQ策略及SS策略最终被激励着献血数量对比(下图)
捐赠者总数上限为80
PQ策略与对比策略相比有两处显著不同:
PQ策略比其他策略更早开始激励捐献者,同时更晚停止激励;同时每时刻的激励着数量均小于等于其他策略。这一现象也证明了PQ策略更具有前瞻性。 PQ策略的激励对象包括高响应、低响应两类志愿者,且二者的比例虽库存水平的涨落变化。实验初期,库存相对充足时,PQ策略倾向于激励低响应志愿者。当库存水平逐渐稳定,该策略则提高了对高响应志愿者激励数量。
平均状态分析
在抽样比较之外,本文还进一步比较了三种策略平均库存水平、平均不合格献血者数量、平均合格献血者数量(稳定需求场景下)。
根据图四,PQ策略由于具有前瞻性规划的性质,可以将平均库存水平维持在高位。
图四:平均库存水平(左图)及平均不合格献血者数量(右图)
根据图五,PQ政策产生了更多合格捐献者,原因在于该策略能够保留更多的低响应捐赠者作为积极捐赠者(留存在模型中)。由于血液库存的增加等价于不合格捐献者的增加(进入观察队列),所以PQ策略实际上吸引了更多低响应捐赠者献血来满足需求,同时解放了高响应捐赠者,使其更有效地响应需求波动,从而达到减少短缺的出现。
图五:合格献血者数量(上图)及高响应捐献者数量占比(下图)
表三:非合格捐献者和合格捐献者的比例
根据PQ策略的结果,本文推测出优化策略的三条规则:
维持较高的库存水平有助于满足需求,但需要更好地管理旧血以减少浪费; 在剩余时间对低反应性捐赠者进行激励,有助于维持高水平的活跃捐赠者,并减少低反应性捐赠者中的辍学率 维持一个合格的高反应性捐赠者的最小库容,可以使其有更大的能力对长期短缺做出反应。
总结
本文对P-Queue框架进行了创新,同时模拟了血液库存和捐献者流动过程的动态。数值实验表明,本文政策与参考政策相比,在减少短缺和浪费方面具有优势。此外,本文框架可以很容易地扩展到实际情况,特别是需要管理高和低响应两类捐献者的情况下的优化决策支持系统搭建。
实际上,新加坡已经开始将献血者分为高反应性和低反应性两类。本文作者也积极寻求和新加坡官方的合作。此外,本文还希望考察如何估计激励后的捐赠概率,并考虑将机器学习方法应用于此。
关键参考文献:
Heger SA, Slonim R, Garbarino E, Wang C, Waller D (2020) Redesigning the market for volunteers: A donor registry. Management Sci. 66(8):3528–3541.
推荐阅读:
ReF-DDPM: 一种基于DDPM的滚动轴承故障诊断数据增强新方法
一种全新滚动轴承局部缺陷扩展动态更新和实时映射的数字孪生模型
无寿命标签下的RUL概率预测:一种融合贝叶斯深度学习和随机过程的方法