Amazon2021大规模路径规划数据集介绍

2022-10-06 12:27   北京  

2021年亚马逊大规模路由问题研究挑战由亚马逊的最后一英里研究团队主办,并得到了麻省理工学院运输和物流中心的科学支持,本次大赛的目的是促使参赛者利用真实的运营数据,寻找新的、更好的方法来解决现实世界的路由问题。在本文中,我们描述了亚马逊团队为研究挑战发布的数据集,其中包括2018年亚马逊司机在美国五个大都会地区执行的9184条历史路线的路线、站点和包裹级的特征。这个基于真实运营的数据集排除了任何个人的身份信息:所有的路由和包裹标识符都是随机重新生成的,相关的位置数据被模糊处理以确保匿名性。尽管对于车辆路径规划问题(VRP)的研究文献中有多个经典的基准数据集,但2021年亚马逊最后一英里路由研究挑战赛的数据集是第一个包含基于实际操作路由数据实例的大型公开数据集。

1 比赛情况

主办方向参与者提供了用于模型训练的数据,这些数据来自亚马逊快递司机在美国五大大都会地区穿越的6112条历史路线。每条路线都具有无数的特征,包括历史的运输时间成本矩阵、司机操作的送货站顺序、每条路线上运送的包裹的重量和尺寸,以及客户指定的送货时间窗等等。参与者开发的算法在另一组3072条历史路线测试集上进行评估。大赛共收到和评估了45份求解方案(哇这么少吗,看来当时应该积极参加的),获奖者已于2021年7月30日公布。

2 学术视角

从学术的角度来看,该研究挑战旨在让世界各地的学生和学者参与解决路由问题。与传统的优化驱动方法相比,基于数据驱动的(data-driven)、基于学习(learning-based)的车辆路径问题(VRP)及其变体的求解方法在学术文献中还相对缺乏。此外,经典的关于vrp问题的文献中讨论的大多数路径问题都旨在最小化一个清晰、明确的目标函数,如总路径时间或车辆运营成本之和。该研究挑战中定义的路线问题促使参与者转而提出一些方法论来捕捉经验丰富的送货司机的复杂决策和隐性知识,并生成典型司机认为质量良好的路线序列,隐含考虑了便捷性、效率和安全性等质量标准。

3 其它经典的vrp问题数据集

在vrp问题研究的漫长发展历史中,也积累了很多常作为学者们算法测试的benchmark数据集。最经典的数据集要数Solomon数据集(Solomon ,1987),此外还有Christofides数据集(Christofides等人,1979)、Golden数据集(Golden等人,1998),也有一些数据集是在此基础上生成和修改的,如Taillard等人构造的数据集(Taillard等人,1997)。近期,Gunawan等人对vrp问题数据集的分类进行了详细的阐述(Gunawan等人2021)。

4 竞赛数据集描述

数据包含测试集和训练集,训练集包含亚马逊司机2018年在西雅图、洛杉矶、奥斯汀、芝加哥和波士顿等大都市地区执行的6112条历史路线,每条路由都具有多种路由级、站点级和包裹级的特性,测试集包含另外3072条历史观察路线的相同特征。

4.1 路由级特征

  • Route ID:随机生成的字母数字字符串,每条路线的唯一标识

  • Station Code:一种字母数字字符串,能统一地标识路线开始的投递站(或仓库)

  • Date:送货车辆离开车站的日期

  • Departure Time:车辆离开投递站的时间,格式为世界时间(UTC)

  • Executor Capacity:车辆的容积容量,单位为cm3

  • Stops:路线途径的每一站的列表

  • Observed sequence:访问站点的顺序

  • Route Score:观测到的路径序列的质量,以类别变量的形式出现的,可以取高、中或低的值(high, medium, or low)


4.2 站点级特征

  • Stop ID:路由中每一站的唯一标识符,每个站点ID由两个字母组成,路由中的所有站点id都是唯一的,但可以存在于多个路由中

  • Latitude/Longitude:每一站点的坐标,由世界大地测量系统(WGS) 84投影系统确定,坐标已被匿名化和干扰,用以保护快递收件人的隐私

  • Type:类别变量,表示站点的类型,取件点或送件点

  • Zone ID:一种唯一标识符,表示站点所在的地理图形规划区域。虚线前的数字表示高层规划区。破折号后面的文本表示高级区域中的子区域。所有区域都是由亚马逊内部设计的

  • Packages:指定在车站投递的包裹清单

  • Transit times:对于给定的两个站点,在这些站点之间的所有包裹递送历史实现的运输时间的平均值,以秒为单位


4.3 包裹级特征

  • Package ID:一个随机生成的字母数字字符串,唯一标识路由中的每个包,包标识符在路由之间不共享

  • Scan Status:一个类别变量,表示包的交付状态,可以是已交付、准备交付或拒绝收货。在某些情况下,包裹可能在同一路线上经历一次失败的准备交付和一次成功的已交付。这种情况发生时,包仍然只有一个ID,但相关的站点将有两个,一个对应于失败的准备,另一个对应于成功的交付

  • Time Window:可接受包裹递送的时间窗,由start_time_utc和end_time_utc定义,两者都在UTC中指定。如果包的start_time_utc和end_time_utc字段为NaN,则没有指定时间窗口

  • Planned Service Time:以秒为单位的计划包裹装卸时间

  • Dimensions:包装的长度、宽度和高度,以厘米为单位



5 数据集下载方法

安装AWS命令行界面(CLI) (Amazon Web2022),在命令行中输入命令:aws s3 sync–no-sign-request s3://amazon-last-milechallenges/almrrc2021/{local directory},更详细的数据获取指引可以访问https://registry.opendata. aws/amazon-last-mile-challenges

参考文献

Merchán, D., Arora, J., Pachon, J., Konduri, K., Winkenbach, M., Parks, S., & Noszek, J. (2022). 2021 Amazon Last Mile Routing Research Challenge: Data Set.Transportation science.

Christofides N, Mingozzi A, Toth P (1979) The vehicle routing problem. Christofides N, Mingozzi A, Toth P, Sandi C, eds. Combinatorial Optimization (Wiley, Chichester, UK), 315–338. 

Golden BL, Wasil EA, Kelly JP, Chao IM (1998) The impact of metaheuristics on solving the vehicle routing problem: Algorithms, problem sets, and computational results. Fleet Management and Logistics (Springer, Boston, MA), 33–56. 

Gunawan A, Kendall G, McCollum B, Seow HV, Lee LS (2021) Vehicle routing: Review of benchmark datasets. J. Oper. Res. Soc. 72(8):1–14. 

Solomon MM (1987) Algorithms for the vehicle routing and scheduling problems with time window constraints. Oper. Res. 35(2): 254–265. Taillard ED, Laporte G, Gendreau M (1996) Vehicle routing with ´ multiple use of vehicles. J. Oper. Res. Soc. 47(8):1065–1070


小马过河啊
要好好学习呀!
 最新文章