文献链接:
https://doi.org/10.1287/opre.2018.1832
01 研究背景
我们考虑一个动态分类选择问题,其中零售商在每一轮中提供N种可替代产品的子集(分类)给消费者,消费者根据多项式logit (MNL)选择模型从这些产品中选择一种。零售商观察这种选择,目标是动态学习模型参数,同时优化长度为T的销售范围内的累积收入。我们将这种探索-利用公式称为MNL-Bandit问题。
本文中,我们给出了一种新的有效的算法,可以同时探索和利用任何问题参数,而无需先验知识。此外,该算法是自适应的,在“良好分离”的情况下,它的性能接近最优,在这种分离不需要保持的一般参数设置中。
02 模型建立
1.购买概率:
零售商有N个产品, 𝑖: 𝑖∈{1,2,⋯ , 𝑁},在 t 时刻选择提供产品组合S_t⊂{1,2,⋯ , 𝑁}。消费者在 t 时刻的购买选择c_t∈ S_t∪{0}。消费者的购买概率p_i (S)为
2.预期利润:
产品 i 被消费者购买后零售商获得的利润为r_i,零售商在 t 时刻提供给消费者产品组合 S 获得的预期利润为𝑅(𝑆,𝑣):
3.目标函数:
目标是设计策略π=(π_1,π_2, ⋯ ,π_T )使累计预期收益最大化:
也可以通过遗憾来衡量策略π的性能表现:
03 算法框架
04 实验设置
我们考虑参数化MNL设置,对于所有i, 设置n=10, k=4, ri=1和效用参数v0=1,对于i=1,…N
其中ϵ={0.05, 0.1, 0.15, 0.25}
文献中所绘制的遗憾图如下:
05 代码复现
复现结果:
对于不同的ϵ值,随着进行1000000迭代,累计遗憾的增长逐渐趋于平缓。其中ϵ代表的是最优产品组合与次优产品组合之间的分离程度,可以看出,ϵ越小,即最优与次优之间不易被算法区分,即使这样,本篇文献设计的算法的性能依然可以呈次线性增长。而随着ϵ的增大,算法的性能表现越好。
链接: https://pan.baidu.com/s/1NMuMNglvCImJ-nepAGlA2g
提取码: 0527
识别二维码关注我们
文章推荐人 | 陈正
校对 | 罗陈斌
排版 | 陈正