上周,国外的位置服务提供商——Foursquare,发布了一个开源的全球兴趣点(POI)数据集Foursquare Open Source Places (FSQ OS Places)。
高质量的POI数据集极少被公开,尽管OpenStreetMap(OSM)和Overture等平台在努力填补这一空白,但其覆盖率和精确性仍有不足。
在这样的背景下,Foursquare宣布开源其拥有超过1.04亿兴趣点的POI数据集,在海外网络上还是比较火热的。
Foursquare OS Places数据集评测
Foursquare成立于2009年,凭借开源工具(如Kafka、PyTorch、Apache Iceberg等)提升了软件开发和地理空间能力。
同时,像Uber的H3索引系统、Apache Sedona空间框架以及OpenStreetMap(OSM)的开源地图数据,也成为其产品体系的关键。
数据访问
该数据目前在AWS上,官方给出了下载方法。
官方数据页面
https://opensource.foursquare.com/os-places/
下载后,本地需要使用DuckDB
以及以及其 H3、JSON、Lindel、Parquet 和 Spatial
扩展来查询数据。
如果是线上数据预览,你可以使用第三方构建的服务 给出连接如下,对电脑性能有一定要求,普通机子可能会卡。
https://www.fused.io/public/UDF_Foursquare_Open_Source_Places
全新POI数据集的特性
Foursquare的FSQ OS Places包含超过1亿个全球兴趣点,涵盖22个核心属性。
这一数据集每月更新,并采用Apache 2.0许可框架向商业用途开放。
本次数据量级在11GB左右,也就是说你如果本地使用,后续每个月硬盘都会+11GB。
通过fused.io的在线服务,可以方便的预览这些数据。随机挑了一个上海的地址,如下图。
又选择了十几条国内的数据,基本都是name
、category
、coordinates
这些信息,而有些数据会有address
。
104M条记录
从国外老哥的评测来看,目前数据库共有104,181,215
条记录,即1亿零4百万条数据。
且数据质量比较好,大多数列填充良好。只有八列的 NULL 比率超过 85%。
253个国家
在这个数据集中有 253
个国家。美国有约 2350
万条记录,随后是印度尼西亚和土耳其,前几个国家超过 800 万条。
以下是数据的热力图分布,可以明显看到,美国、欧洲最多。并且欧洲的POI分布和人口是高度的一致。
韩国日本的数据也非常多,和朝鲜的形成了明显对比。
国内数据不知道具体多少条,由于直接访问数据做更细致的分析,需要配置AWS的服务,比较繁琐,我就没有再继续深入查了。
国内数据可以说也不少,以北、上、广、深及成都、武汉、南京等主要二三线城市居多,西北基本空白。
(需要说下TW的数据有41万条,如果做一些这方面的项目,可以验证下这个数据质量怎么样)
数据分类
POI 项分类清晰,以下是常见的、顶级的目录,我做了下翻译。
期待更多开源数据
Foursquare此次开放1亿条POI数据,为开发者、研究人员和企业提供了前所未有的机会。这一数据集的规模、质量和开放性,极大降低了高质量POI数据的获取门槛。
使用这个dataset,应该可以尝试很多相关的研究方向。如果你对地理空间数据感兴趣,不妨下载Foursquare的数据集一试,说不定下一个改变行业的创新,就会从你手中诞生。
往期推荐:
研究速递 | TEOChat:首个专为遥感时序分析设计的多模态大模型