论文速递 | Management Science 10月文章合集

科技教育 2024-11-14 20:33 德国

↑↑↑↑↑点击上方蓝色字关注我们！

推文作者：胡思行

编者按

在本系列文章中，我们从运筹学顶刊 Management Science 10月份发布的47篇文章中筛选出11篇文章，并介绍基本信息，旨在帮助读者快速洞察行业最新动态。

推荐文章11

● 题目：A Simple and Optimal Policy Design with Safety Against Heavy-Tailed Risk for Stochastic Bandits

针对随机多臂老虎机问题的具有安全性的简单和最优策略设计，以抵御重尾风险

● 原文链接 ：https://doi.org/10.1287/mnsc.2022.03512

● 作者：David Simchi-Levi, Zeyu Zheng, Feng Zhu

● 发布时间：October 30, 2024

● 摘要：

We study the stochastic multi-armed bandit problem and design new policies that enjoy both optimal regret expectation and light-tailed risk for regret distribution. We first find that any policy that obtains the optimal instance-dependent expected regret could incur a heavy-tailed regret tail risk that decays slowly with T. We then focus on policies that achieve optimal worst-case expected regret. We design a novel policy that (i) enjoys the worst-case optimality for regret expectation and (ii) has the worst-case tail probability of incurring a regret larger than any regret threshold that decays exponentially with respect to T. The decaying rate is proved to be optimal for all worst-case optimal policies. Our proposed policy achieves a delicate balance between doing more exploration at the beginning of the time horizon and doing more exploitation when approaching the end, compared with standard confidence-bound-based policies. We also enhance the policy design to accommodate the “any-time” setting where T is unknown a priori, highlighting “lifelong exploration”, and prove equivalently desired policy performances as compared with the “fixed-time” setting with known T. From a managerial perspective, we show through numerical experiments that our new policy design yields similar efficiency and better safety compared to celebrated policies. Our policy design is preferable especially when (i) there is a risk of underestimating the volatility profile, or (ii) there is a challenge of tuning policy hyper-parameters. We conclude by extending our proposed policy design to the stochastic linear bandit setting that leads to both worst-case optimality in terms of regret expectation and light-tailed risk on regret distribution.

我们研究了随机多臂老虎机问题，并设计了新的策略，这些策略在期望遗憾和遗憾分布的轻尾风险方面都表现出色。我们首先发现，任何获得最优实例依赖期望遗憾的策略都可能承担随着T缓慢衰减的重尾遗憾尾部风险。然后，我们专注于实现最优最坏情况期望遗憾的策略。我们设计了一种新策略，它（i）在遗憾期望方面享有最坏情况的最优性，并且（ii）具有在任何遗憾阈值上产生比任何遗憾更大的遗憾的最坏情况尾部概率，并且随着T指数衰减。衰减率被证明对于所有最坏情况最优策略都是最优的。我们提出的策略在时间范围开始时进行更多探索和在接近结束时进行更多利用之间实现了微妙的平衡，与标准基于置信度的策略相比。我们还增强了策略设计，以适应T事先未知的“随时”设置，强调“终身探索”，并证明与已知T的“固定时间”设置相比，具有等价的理想策略性能。从管理的角度来看，我们通过数值实验表明，我们的新策略设计在效率上与知名策略相似，并且在安全性上更好。特别是当我们（i）有低估波动性概况的风险，或（ii）存在调整策略超参数的挑战时，我们的策略设计更受青睐。我们通过将我们提出的策略设计扩展到随机线性老虎机设置来结束，这在遗憾期望方面实现了最坏情况的最优性，并在遗憾分布上实现了轻尾风险。

「运筹OR帷幄」原创的《鲁棒优化入门》电子书正在GitHub更新中，欢迎复制链接阅读

https://github.com/Operations-Research-Science/Ebook-An_introduction_to_robust_optimization

微信公众号后台回复

加群：加入全球华人OR|AI|DS社区硕博微信学术群

资料：免费获得大量运筹学相关学习资料

人才库：加入运筹精英人才库，获得独家职位推荐

电子书：免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书，持续更新中ing...

加入我们：加入「运筹OR帷幄」，参与内容创作平台运营

知识星球：加入「运筹OR帷幄」数据算法社区，免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动，与数百位签约大V进行在线交流

文章须知

推文作者：胡思行

责任编辑：EvelynYao

微信编辑：疑疑

文章由『运筹OR帷幄』原创发布

如需转载请在公众号后台获取转载须知

关注我们

SVG布局的工具条上可以设置动画各种参数
同时可以设置宽高比，达到SVG层和布局内容的完美对齐

SVG布局的工具条上可以设置动画各种参数

http://mp.weixin.qq.com/s?__biz=Mzk0ODMwMjMwMA==&mid=2247684028&idx=1&sn=38cd9dd0a56a915d2178e377c5e383f4

运筹OR帷幄

致力于成为全球最大的运筹学中文线上社区

最新文章

服务运营｜导读：共享机制下住院病床分配的仿真优化

港中大（深圳）戴建岗教授获2024年运筹学最高奖约翰·冯·诺依曼理论奖

被导师放养，后果可能很严重。。。

数学建模优化算法归纳总结

服务运营｜精选：数字经济运营下的服务渠道

研究生如何找运筹优化算法岗位？

优化 | 不确定收益的偏好鲁棒改进最优确定等价量

全球博士、教授学者群——开放！

【运筹OR帷幄】一周博士申请&会议信息汇总--2024.11(3)

优化 | 求解全局优化问题的填充函数方法及两个进展

运筹优化工具库介绍（二）

供应链｜【流水车间调度系列】流水车间调度定义及分类

C/C++多线程调用Gurobi并行求解多模型加速

论文速递 | Management Science 10月文章合集

运筹优化工具库介绍（一）

SAT 问题和混合整数线性规划问题的区别

全奖｜年薪19W，英国圣安德鲁斯大学招收算法相关博士学位

今年顶会这情况。。。大家提前做准备吧！

学界|圣安德鲁斯大学招募优化算法博士

报道 | 2024年12月-2025年2月国际运筹优化会议汇总

pyMetaheuristic，一个封装几十种元启发式算法的Python库

供应链 | 产能共享与延迟柔性，互补还是替代？

全奖｜海德堡大学 Felix Joos 教授招收理论计算机、组合学领域博士（后）

【运筹OR帷幄】一周博士申请&会议信息汇总--2024.11(2)

交通 | 整合按需出行与城市公交网络的战略规划

学界 | 纽伦堡工业大学招募优化博士

优化 | 强化学习中的统计推断——假设检验篇

Mosek求解器在Python中安装、配置及使用

优化 | 哥尼斯堡七桥问题：一种数学规划的方法及Python+Gurobi实现

学界|加州大学圣塔芭芭拉分校电气与计算机工程系招募优化与机器人技术博士

优化 | Monte Carlo方法解决强化学习问题

结合创新idea：机器学习+运筹优化=CCF高端局

供应链｜具有代金券销售的报童模型：分布鲁棒方法

【运筹学】硕博申请指导、科研背景提升（限时特惠）

交通 | INFORMS获奖MS论文：当日可达系统的策略性设计

『运筹OR帷幄』创新学术成果宣传栏目，为论文插上翅膀

【运筹OR帷幄】一周博士申请&会议信息汇总--2024.11(1)

架起工业界和学术界的桥梁！『运筹OR帷幄』商务合作指南

供应链｜POMS论文：摆脱自身限制——在网约车平台引入自动驾驶车辆

学界|葡萄牙里斯本大学招募计算复杂性博士

交通 | 期权合约和需求模糊条件下救灾物流的两阶段分布鲁棒优化

香港中文大学（深圳）运筹优化方向博士生招聘

供应链 | 顶刊MnSc论文：大语言模型如何激发广告创意——探究协作方式与用户经验的双重影响

全奖｜加州大学圣塔芭芭拉分校招收2名优化与机器人领域博士

交通 | COR'23：机器学习求解枢纽选址问题

多目标优化的意义到底是什么？

Pyomo：强大的优化建模工具库

服务运营 | Operations Research: 改善效率驱动的排队模型

学界|爱尔兰都柏林大学招募博士（粮食再分配优化）

供应链｜M&SOM论文解读：结合天气信息的鲁棒无人机配送

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

论文速递 | Management Science 10月文章合集

推荐文章1

推荐文章2

推荐文章3

推荐文章4

推荐文章5

推荐文章6

推荐文章7

推荐文章8

推荐文章9

推荐文章10

推荐文章11