全球1亿条POI数据集公开,美国Foursquare助力科学研究与数据挖掘

科技   2024-11-27 08:56   新加坡  

上周,国外的位置服务提供商——Foursquare,发布了一个开源的全球兴趣点(POI)数据集Foursquare Open Source Places (FSQ OS Places)

高质量的POI数据集极少被公开,尽管OpenStreetMap(OSM)和Overture等平台在努力填补这一空白,但其覆盖率和精确性仍有不足。

在这样的背景下,Foursquare宣布开源其拥有超过1.04亿兴趣点的POI数据集,在海外网络上还是比较火热的。

Foursquare OS Places数据集评测

Foursquare成立于2009年,凭借开源工具(如Kafka、PyTorch、Apache Iceberg等)提升了软件开发和地理空间能力。

同时,像Uber的H3索引系统、Apache Sedona空间框架以及OpenStreetMap(OSM)的开源地图数据,也成为其产品体系的关键。

数据访问

该数据目前在AWS上,官方给出了下载方法。

官方数据页面

https://opensource.foursquare.com/os-places/

下载后,本地需要使用DuckDB以及以及其 H3、JSON、Lindel、Parquet 和 Spatial扩展来查询数据。

如果是线上数据预览,你可以使用第三方构建的服务 给出连接如下,对电脑性能有一定要求,普通机子可能会卡。

https://www.fused.io/public/UDF_Foursquare_Open_Source_Places

全新POI数据集的特性

Foursquare的FSQ OS Places包含超过1亿个全球兴趣点,涵盖22个核心属性。

这一数据集每月更新,并采用Apache 2.0许可框架向商业用途开放。

本次数据量级在11GB左右,也就是说你如果本地使用,后续每个月硬盘都会+11GB

通过fused.io的在线服务,可以方便的预览这些数据。随机挑了一个上海的地址,如下图。

又选择了十几条国内的数据,基本都是namecategorycoordinates这些信息,而有些数据会有address

104M条记录

从国外老哥的评测来看,目前数据库共有104,181,215条记录,即1亿零4百万条数据。

且数据质量比较好,大多数列填充良好。只有八列的 NULL 比率超过 85%。

253个国家

在这个数据集中有 253 个国家。美国有约 2350 万条记录,随后是印度尼西亚和土耳其,前几个国家超过 800 万条。

以下是数据的热力图分布,可以明显看到,美国、欧洲最多。并且欧洲的POI分布和人口是高度的一致。

韩国日本的数据也非常多,和朝鲜的形成了明显对比。

国内数据不知道具体多少条,由于直接访问数据做更细致的分析,需要配置AWS的服务,比较繁琐,我就没有再继续深入查了。

国内数据可以说也不少,以北、上、广、深及成都、武汉、南京等主要二三线城市居多,西北基本空白。

(需要说下TW的数据有41万条,如果做一些这方面的项目,可以验证下这个数据质量怎么样)

数据分类

POI 项分类清晰,以下是常见的、顶级的目录,我做了下翻译。

期待更多开源数据

Foursquare此次开放1亿条POI数据,为开发者、研究人员和企业提供了前所未有的机会。这一数据集的规模、质量和开放性,极大降低了高质量POI数据的获取门槛。

使用这个dataset,应该可以尝试很多相关的研究方向。如果你对地理空间数据感兴趣,不妨下载Foursquare的数据集一试,说不定下一个改变行业的创新,就会从你手中诞生。



往期推荐:

看水利部水利遥感星座战略布局,机遇与挑战并存

研究速递 | TEOChat:首个专为遥感时序分析设计的多模态大模型

NASA与微软联合推出“Earth Copilot”,“智能助手“或成为行业产品标配

ChatGPT接入Mapbox,AI地图搜索分析的实现思考

高效跟进研究前沿,AI论文阅读工具全攻略

Google 发布遥感大模型技术“Embedding Field”,从高维数据到真实世界的重构

空天感知
专注商业航天、人工智能、气象水文等交叉学科,精选行业资讯,深耕AI业务落地
 最新文章