Pokémon Go 公司构建大型地理空间模型，玩家不知不觉贡献了训练数据

科技 2024-11-23 13:31 辽宁

整理 | 王强、褚杏娟

Niantic，这家开发了极受欢迎的增强现实手游《Pokémon GO》和《Ingress》的公司，宣布它正在使用其数百万玩家收集的数据来创建一个能够导航现实世界的 AI 模型。这是一个“大型地理空间模型”的概念，该模型将使用大规模机器学习来理解一个场景，并将其与全球数百万个其他场景联系起来。

“当你看到一个熟悉的结构类型时——无论是教堂、雕像还是城镇广场——即使你没有从各个角度看过它，也很容易想象从其他角度看它会是什么样子。作为人类，我们具有‘空间理解’能力，这意味着我们可以根据我们之前遇到的无数类似场景来填补这些细节。但对于机器来说这项任务极其困难。即使是当今最先进的人工智能模型也难以可视化和推断场景中缺失的部分，或者从新的角度想象一个地方的样子。这种情况即将改变：空间智能是人工智能模型的下一个前沿。”Niantic 表示。

作为 Niantic 视觉定位系统（VPS）的一部分，Niantic 训练了超过 5000 万个神经网络，拥有超过 150 万亿个参数，可运行在超过一百万个位置中。在 Niantic 的大型地理空间模型（Large Geospatial Model，LGM）愿景中，每个本地网络都将为同一个全球大型模型做出贡献，实现对地理位置的共享理解，并理解尚未完全扫描的那些地方。

LGM 将使计算机不仅能够感知和理解物理空间，还能以新的方式与它们交互，成为 AR 眼镜和其他领域，包括机器人、内容创建和自主系统的关键要素。随着我们从智能手机转向与现实世界相关的可穿戴技术，空间智能将成为世界未来的操作系统。

什么是大型地理空间模型？

大型语言模型（LLM）对人们日常生活和多个行业产生了不可否认的影响。经过互联网规模的文本集合训练后，LLM 能够理解和生成书面语言，其方式挑战了我们对“智能”的理解。LGM 将帮助计算机以同样先进的方式感知、理解和探索物理世界。

与 LLM 类似，地理空间模型是使用大量原始数据构建的：包括这个世界拍摄的数十亿张图像，全部关联到地球上的精确位置。它们被提炼成一个大型模型，从而实现基于位置的对空间、结构和物理交互的理解。

从基于文本的模型到基于 3D 数据的模型的转变反映了近年来人工智能发展的轨迹愈加广泛：从理解和生成语言，到解释和创建静态和动态图像（2D 视觉模型），并且随着当前研究工作的不断扩展，开始转向对物体的 3D 外观进行建模（3D 视觉模型）。

地理空间模型甚至比 3D 视觉模型更进了一步，因为它们可以捕获植根于特定地理位置，并具有可衡量的质量（quality）的 3D 实体。

与生成未缩放资产的典型 3D 生成模型不同，大型地理空间模型与度量空间绑定，确保以缩放度量（scale-metric）单位进行精确估算。因此，这些实体代表了下一代地图，而不是简单的 3D 资产。

虽然 3D 视觉模型也许能创建和理解 3D 场景，但地理空间模型还可以理解该场景与全球数百万个其他场景在地理上的关系。地理空间模型实现了一种地理空间智能，其中模型从其先前的观察中学习，并能够将知识转移到新位置，即使这些位置只观察到了一部分信息。

虽然带有 3D 图形能力的 AR 眼镜距离大众市场还有几年的时间，但地理空间模型有机会与纯音频或 2D 显示眼镜集成。这些模型可以引导用户游览世界、回答问题、提供个性化建议、帮助导航并增强现实世界的互动。大型语言模型也可以集成进来，使模型理解能力和空间结合在一起，让人们有机会更多地了解和参与周围的环境和社区。

源自大型地理空间模型的地理空间智能还可以生成、补完或操纵世界的 3D 表示，以帮助构建下一代 AR 体验。除了游戏之外，大型地理空间模型还将有很广泛的应用，包括空间规划和设计、物流、观众互动和远程协作。

Niantic 迄今为止做了些什么

Niantic 表示，在过去五年中，其一直专注于构建视觉定位系统（VPS），该系统使用手机中的单个图像来确定其位置和方向，使用的 3D 地图是由人们在 Niantic 的一系列游戏和 Scaniverse 中扫描的有趣位置来构建的。

借助 VPS，用户可以以厘米级的精度在世界中定位自己。这意味着他们可以精确而逼真地看到放置在物理环境中的数字内容。这些内容具有持久性，即在你离开后仍会保留在某个位置，然后可以与其他人共享。例如，Niantic 最近开始在 Pokémon GO 中推出一项名为 Pokémon Playgrounds 的实验性功能，用户可以将 Pokémon 放置在特定位置，然后它们将保留在那里供其他人查看和互动。

Niantic 的 VPS 是根据用户扫描构建的，这些扫描是从不同角度、在一天中的不同时间、一年中的许多时间进行的，并附带了定位信息，从而对世界有了非常详细的了解。这些数据是独一无二的，因为它是从行人的视角获取的，包括了很多汽车无法到达的地方。

如今，Niantic 在全球拥有 1000 万个扫描位置，其中超过 100 万个已激活并可用于 Niantic 的 VPS 服务。Niantic 每周收到大约 100 万份新的扫描资料，每份都包含数百张离散图像。

作为 VPS 的一部分，Niantic 使用运动结构技术构建经典的 3D 视觉地图，但也为每个位置构建一种新型的神经地图。这些模型基于 Niantic 的研究论文 ACE (2023) 和 ACE Zero (2024)，它们不再使用经典的 3D 数据结构来表示位置，而是将它们隐式编码在神经网络的可学习参数中。这些网络可以快速将数千张地图图像压缩为精简的神经表示。给定一张新的查询图像，它们能以厘米级的精度为该位置提供精确定位。

迄今为止，Niantic 已训练了超过 5000 万个神经网络，其中多个网络可以为单个位置做出贡献。所有这些网络加起来包含超过 150 万亿个使用机器学习优化的参数。

LGM “实现前所未有的定位稳健性”

Niantic 当前的神经地图是一个可行的地理空间模型，目前作为 Niantic VPS 的一部分，处于活动状态并可用。然而，Niantic 对“大型地理空间模型”的愿景超越了当前独立的本地地图系统。

完全本地化的模型可能缺乏对各自位置的完整覆盖。无论 Niantic 在全球范围内拥有多少数据，但在本地，这些数据通常都是稀疏的。本地模型的主要故障模式是它无法推断出它已经看到的内容以及模型看到的位置。因此，本地模型只能将摄像机视图定位为与它们已经训练过的视图相似的视图。

“想象一下你站在教堂后面。假设离得最近的本地模型只看到了教堂的正门，因此，它无法告诉你你在哪里，因为该模型从未见过那栋建筑的背面。但在全球范围内，已经看到了很多教堂，有成千上万座，它们都被它们各自的本地模型在世界其他地方拍摄下来了。没有哪座教堂是一模一样的，但许多教堂都有共同的特征。LGM 是一种获取分布式知识的方法。”Niantic 表示。

LGM 在全球大型模型中提炼出共同信息，从而实现了跨本地模型的通信和数据共享。LGM 能够内化教堂的概念，以及这些建筑的共同结构。即使对于某个位置而言，Niantic 只绘制了教堂的入口，LGM 也能够根据它之前见过的数千座教堂，对建筑物的背面做出明智的猜测。因此，LGM 实现了前所未有的定位稳健性，即使是从 VPS 从未见过的视点和角度也依旧如此。

全球模型实现了对世界的集中理解，这种理解完全来自地理空间和视觉数据。LGM 通过全局插值进行局部推断。

达到“类似人类的理解”

上述过程类似于人类感知和想象世界的方式。作为人类，我们自然而然地就能认出以前见过的东西，即使是从不同的角度。例如，我们只需花费相对较少的力气就能沿着欧洲老城区蜿蜒的街道原路返回。我们能识别出所有正确的路口，尽管我们只见过一次，而且是从相反的方向。

这需要对物理世界和文化空间有一定程度的理解，这对我们来说是很自然的，但用传统的机器视觉技术很难实现。它需要了解一些基本的自然规律：世界是由固体物质组成的物体组成的，因此有正面和背面；外观会根据一天中的时间和季节而变化。它还需要大量的文化知识：许多人造物体的形状遵循特定的对称规则或其他一些常见的布局类型——通常取决于地理区域。

虽然早期的计算机视觉研究试图破译其中一些规则，以便将它们硬编码到手工制作的系统中，但现在大家一致认为，我们所期望的如此高程度的理解实际上只能通过大规模机器学习来实现。这是 LGM 所追求的。

在 Niantic 最近的研究论文 MicKey (2024) 中可以首次看到从 Niantic 的数据中浮现出的、令人印象深刻的相机定位能力。MicKey 是一个神经网络，即使在视点发生剧烈变化的情况下，也能够将两个相机视图相互定位。

MicKey 甚至可以处理一些人类需要费点力气才能弄清楚的对立镜头。MicKey 是基于 Niantic 的一小部分数据进行训练的。MicKey 仅限于双视图输入，并且是基于相对较少的数据进行训练的，但它仍是关于 LGM 潜力的一个概念证明。显然，要实现本文所述的地理空间智能，需要大量地理空间数据——这种数据并不是很多组织可以访问的。Niantic 认为，其可以引领大型地理空间模型成为现实，“毕竟每周我们都会收到超过一百万张用户贡献的真实世界地点扫描图。”

与多模态模型交互通信

LGM 不仅能用于定位。为了很好地解决定位问题，LGM 必须将丰富的几何、外观和文化信息编码为场景级特征。这些功能将实现新的场景表示、操作和创建方式。像 LGM 这样可用于众多下游应用的多功能大型 AI 模型通常被称为“基础模型”。

不同类型的基础模型将相互补充。LLM 将与多模态模型交互，而多模态模型又将与 LGM 通信。 这些系统协同工作，将以任何单一模型都无法实现的高级方式来理解世界。这种互联互通是空间计算的未来——诞生感知、理解和作用于物理世界的智能系统。

随着向更具可扩展性的模型迈进，Niantic 的目标仍然是引领大型地理空间模型的开发，“不管是什么地方，只要我们可以为用户提供新颖、有趣、丰富的体验，就可以运行这个模型。”Niantic 表示，除了游戏之外，大型地理空间模型还将有广泛的应用，包括空间规划和设计、物流、观众互动和远程协作。

从 LLM 到 LGM 的道路是人工智能进化的又一步。随着 AR 眼镜等可穿戴设备变得越来越普遍，世界未来的操作系统将依赖于物理和数字现实的融合，以创建一个以人为中心的空间计算系统。

原文链接：

https://nianticlabs.com/news/largegeospatialmodel

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 9 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

今日荐文

ChatGPT 干掉了一家上市公司！千亿市值归零、10 多年 CEO 被迫离职，付费用户直呼上当

营收翻倍、Blackwell芯片爆单，黄仁勋否认 Scaling Law 失效，但英伟达财报后股价还是跌了

最大的 AI Agent 生态系统来了！微软推出适配 1800 种大模型的智能体，迈入自己的 Agent 时代

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

你也「在看」吗？👇

http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247627809&idx=2&sn=46a3be971c7f65a6ea31d46323489dc6

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

最新文章

仅4个多月RAG就进化到“一个新时代”了：成本降低到GraphRAG的0.1%

两位清华大牛联手带出的明星企业，摘得Robotaxi第一股，市值超360亿！

科技巨头重磅发力的 AI Agent，给了谁新出路？| 直播预约

泄露的 Sora 效果炸裂，还一次成型！OpenAI 白嫖丑闻闹大了，吃瓜网友看到了进化版模型

大模型让我们成了“提词狂魔”，未来开发者核心竞争力在哪里？

全员停发工资、高管跑路：被小米看上的智驾明星 IPO 三度败北，前员工吐槽“越做越赔钱”

Anthropic 工程师关于提示词工程的深入探讨

AI 杀死了程序员培训班：花 1.3 万美元学编程，却连面试机会都没有？

AI产品如何找到破局之道？秘塔 COO、B 站“王一快”在 AICon 带来答案！

孙宇晨花 624 万美元拍下一根香蕉；黄仁勋荣获港科大荣誉博士；70 多辆小米 SU7 自动泊车撞墙、撞柱 |AI周报

谷歌 AlphaChip 论文再被质疑，DeepMind 驳斥都没做预训练，顺带还揪出了“内鬼”？

强制销毁员工聊天记录！谷歌15年打造“隐瞒文化”：不要保留任何可能让我们难堪的东西！

Pokémon Go 公司构建大型地理空间模型，玩家不知不觉贡献了训练数据

ChatGPT 干掉了一家上市公司！千亿市值归零、10 多年 CEO 被迫离职，付费用户直呼上当

Mooncake 分离式推理架构创新与实践

营收翻倍、Blackwell芯片爆单，黄仁勋否认 Scaling Law 失效，但英伟达财报后股价还是跌了

“为什么说大模型可能是软件开发的死胡同？”

最大的 AI Agent 生态系统来了！微软推出适配 1800 种大模型的智能体，迈入自己的 Agent 时代

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

粉丝福利 | 11 月 23 日，来一场边玩边赚钱的Party！

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

Scaling Law，撞墙了吗？| 直播预告

全球超万亿使用量的热门数据库，首次被大模型揪出了严重漏洞

英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

网易CodeWave：当低代码+AIGC 进入深水区，我们如何继续发展？

AI周报 | 月之暗面杨植麟回应近期争议；马斯克或遭调查，理由是“通俄”；小米汽车校招待遇曝光，一年可达 18 薪

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

马斯克“当官”，硅谷大佬抢破头进 DOGE：零报酬、每周工作 80 个小时，录取率不到 1%

钉钉公布商业化核心进展：上半财年ARR远超2亿美元，6大新AI助理现已免费开放

Anthropic创始人访谈：不是因为Altman 与微软合作而离开OpenAI、Scaling Law不会撞墙、未来招聘将放缓

我们为什么不遗余力地举办 AICon？

助推“超级有用”的应用爆发，百度把开发门槛打下去了

续航超 4 小时、算力 550T，这款国产自研人形机器人让家务更轻松

AI 商业化落地难？百度“杀”出新增长

Mojo 作者 Chris Lattner：Mojo 不仅仅是一种 AI 语言

挨骂 6 个月后，DeepMind 急了：诺奖模型 AlphaFold 3 代码全网免费送，Nature 也发文力荐！

应用突破还是炫技噱头：大模型能否真正驱动行业升级？

天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

过去一年我开发 AI 视频编辑器的收获

一句话改图！字节豆包通用图像编辑模型 SeedEdit 上线测试

AI周报 | 字节弱化等级：不提倡称哥姐、隐掉职级性别；雷军或推小米驾校，1999元包训漂移？携程CEO：缩短工作时间或提高生育

著名 AI 学者、天工智能首席科学家颜水成离开昆仑万维，去年 9 月入职

微软将斥巨资 700 多亿元，从 AI 初创公司 CoreWeave 租用服务器

6 年 OpenAI 高管揭秘：我为什么离开 OpenAI 及这个公司现在怎样了？

腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

谷歌版贾维斯意外泄露！自主上网购物填表不在话下，“钢铁侠 ”成真指日可待？

122 天打造的奇迹：深入探访 xAI 的 10 万块 GPU 超级 AI 计算机集群

Netflix 弃用人类游戏开发转向 AI，游戏大厂不敢跟风！Netflix 高管：这是“千载难逢”的机遇

用 AI 赋能会议耳机，未来智能要做打工人的嘴替脑替

甲骨文吴承杨：生成式 AI 难以落地，缺少以 AI 为中心的应用开发架构是关键

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉