首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

文摘 2024-11-21 18:21 山西

李飞飞提出的「空间智能」概念，被宝可梦GO团队抢先实现了？

最近，宝可梦GO团队宣布，构建出了一个大规模地理空间模型LGM，让我们距离空间智能更近了一步。

而这一成果也意味着，人类在空间计算和AR眼镜领域，即将进入崭新的时代。

作为Niantic视觉定位系统（VPS）的一部分，团队训练了超过5000万个神经网络，参数规模超过150万亿。

我们可以把LGM想象成一张为计算机准备的超级智能地图，不过，它却能以与人类类似的方式理解空间。

凭借这种对世界的强大3D理解能力，LGM能够非常智能地「填补空白」，甚至包括那些地球上人类尚未全面扫描的领域！

可以说是，让AI终于长出了眼睛

从此，LGM将使计算机不仅能感知和理解空间，还能以新的方式与之互动，这就意味着AR眼镜和机器人、内容创建、自主系统等领域将迎来全新的突破。

随着我们从手机转向与现实世界相连的可穿戴技术，空间智能，将成为未来世界的操作系统！

全球数百万个场景，通过AI相连

这个大规模地理空间模型的概念，是利用大规模机器学习理解场景，然后它就会与全球数百万个其他场景相连。

你是否曾有这样的感觉？

看到一种熟悉的建筑，比如教堂、雕像或城镇广场，我们很容易想象它从其他角度看起来是什么样子，即使这些角度我们从未见过。

这，就是我们人类独有的「空间理解」功能，它意味着，我们可以根据以前遇到的无数相似场景来填补这些细节。

但这种能力对于机器来说，却是难如登天。

即使当今最先进的AI模型，也难以推断出场景中缺失的部分、将其可视化，或者想象出一个地方从全新的角度看起来是什么样子。

如今，LGM打破了AI的这种限制！

这套由宝可梦GO团队训练出的神经网络，可以在超过100万个地点进行操作。

每个本地网络，都会为全球大模型做出贡献，实现对地理位置的贡献理解，包括那些尚未扫描的地方。

什么是大规模地理空间模型

我们都知道，LLM是通过在互联网规模的文本集合上进行训练后，从而理解和生成书面语言。

这种方式，挑战了我们对「智能」的理解。

同样，大规模地理空间模型也是以一种同样先进的方式，帮助计算机感知、理解物理世界，为之导航。

跟LLM类似，它同样是通过大量原始数据构建的——

数十亿张全球各地的图像，全部锚定在地球上的精确位置，被提炼成一个大模型，让计算机能够基于位置去理解空间、结构和物理交互。

从基于文本的模型向基于3D数据的模型的转变，也揭示出近年来AI发展的一条轨迹：从理解和生成语言，到解释和创建静态和动态图像（2D视觉模型），再到对物体的3D外观进行建模（3D视觉模型）。

而现在，地理空间模型甚至比3D视觉模型更进一步，因为它们捕捉的是根植于特定地理位置、并且具有度量特性的3D实体。

与典型的生成式3D模型不同，大规模地理空间模型绑定到了度量空间，因而能够以尺度度量单位进行精确的估算，而前者生成的，只是未缩放的资产。

因此，这些实体代表的是下一代地图，而非任意的3D资产。

虽然3D视觉模型也能创建和理解3D场景，但地理空间模型却理解该场景如何与全球数百万其他场景在地理上相关联。

它实现了一种地理空间智能，让模型从其先前的观察中学习，然后还能将知识转移到新的位置，即使这些位置只是被部分观察到的。

现在，带有3D图形的AR眼镜距离大规模市场化还有几年时间，但地理空间模型已经有机会与纯音频或2D显示的眼镜集成了！

想象一下，这些模型可以引导我们穿越世界，回答问题，提供个性化推荐，提供导航，甚至增强我们与现实世界的互动。

而且，它还可以集成LLM，让理解和空间融合在一起，让人们能更加了解自己周边的环境和社区，并且与之互动。

这种地理空间智能还能生成和操纵世界的3D表示，构建下一代AR体验。

除了游戏之外，在空间规划和设计、物流、观众互动和远程协作上，大规模地理空间模型都将具有无限的潜力。

5000万个神经网络，详细了解整个世界

为了构建视觉定位系统VPS，Niantic团队已经花费了五年。

这个系统仅利用手机上的单张图像，就能让用户在团队的游戏和Scaniverse中有趣的地点构建3D地图，从而确定其位置和方向。

有了VPS，用户就可以以厘米级的精度，在世界中定位自己！

这就意味着，他们可以精确而真实地看到放置到物理环境中的数字内容。

这些内容是持久的，即使你离开后，它们仍然会留在原地，还能与他人共享。

比如，团队最近在Pokémon GO中推出了一项名为Pokémon Playgrounds的实验功能，让用户在特定位置上放置宝可梦，将它们留在原地，供其他人查看和互动

所以，VPS是怎样创建出对世界如此高度详细的理解呢？

原来，Niantic的VPS都是通过用户扫描构建的。

这些用户会通过不同的视角拍摄，并且还会在一天中的不同时间，以及多年来的多次拍摄，同时附有定位信息，从而创建出了对世界高度详细的理解。

这些数据是独一无二的，因为它们是从行人视角获取，包括了汽车无法到达的地方。

如今团队已经在全球范围内拥有1000万个扫描地点，其中超过100万个已激活，可供VPS使用了。

而且，团队每周还在接收约100万次新的扫描，每次扫描都包含数百张独立的图像。

作为VPS的一部分，团队使用运动结构技术构建经典的3D视觉地图，同时也为每个地点构建了一种新型的神经地图。

这些神经模型基于ACE（2023）和ACE Zero（2024）这两篇论文，不再使用经典的3D数据结构来表示位置，而是将它们隐式编码在神经网络的可学习参数中。

这些网络可以快速地将数千张地图图像压缩成精简的神经表示。

给定一张新的查询图像，它们以厘米级的精度，对这个位置进行精确定位。

Niantic训练的超过5000万个神经网络中，多个网络都可以为单个位置做贡献。

所有这些网络结合起来后，总共包含了超过150万亿个通过机器学习优化的参数。

超越本地模型，让空间理解更宏大

而且，团队还有一个宏伟的愿景。

虽然当前的神经地图，已经是一个比较庞大的地理空间模型了，但他们想做的，是一个超越独立本地地图系统的更大规模的模型。

完全本地化的模型，可能无法完整覆盖各自的位置，无论在全球范围内有多少可用数据，局部上它们都是稀疏的。

局部模型的失败之处就在于，它无法超出已经看到的内容和位置进行推断。因此，本地模型只能定位与训练过的视图相似的相机视图。

现在，想象一下我们正站在一个教堂后面。

如果本地模型只见过教堂的前门，它是无法告诉你的准确位置的，因为它从未见过教堂的背面。

但是在全球范围内，我们却见过数以千计的教堂，它们都是由其他地方的本地模型捕获。虽然没有哪座教堂完全相同，但许多教堂有共同的特征。

LGM用的正是访问这些分布式知识的方法。

它可以提炼出全球大规模模型中的共同信息，在本地模型之间实现通信和数据共享。

它可以内化教堂的概念，并且进一步理解这些建筑是如何构造的。

即使对于某个特定位置只绘制了教堂入口的地图，LGM也能够根据之前见过的数千座教堂，对教堂的背面做出明智的猜测。

因此，即使是VPS从未见过的视点和角度，LGM也能在定位中实现前所未有的鲁棒性。

可以说，全球模型实现了对世界的集中理解，而且完全是源自地理空间和视觉数据。通过全球插值，它能进行局部推断。

让AI像人一样理解

上述过程，类似于人类感知和想象世界的方式。

对于人类来说，即使是从不同的角度，也能自然而然地识别出我们以前见过的东西。

想象在欧洲老城蜿蜒街道中漫步，你依然能轻而易举地找到返回的路。

这看似理所当然的能力，背后蕴含着惊人的复杂性。尤其是，对于机器视觉技术来说极其困难。

AI若想拥有类人的理解力，便需要了解一些自然法则：

世界由固体物质组成的物体构成，因此有正面和背面。外观会根据一天中的时间和季节而变化。

同时，这也需要相当多的文化知识：许多人造物体的形状遵循特定的对称规则或其他通用布局类型——通常取决于地理区域。

早期的计算机视觉研究试图解读其中的一些规则以便将其硬编码到手工制作的系统中。

但现在，科学家们意识到，我们所追求的这种高度理解实际上只能通过大规模机器学习来实现。

这正是LGM所追求的目标。

在Niantic联手牛津大学的最新研究论文MicKey中，首次看到了从数据中出现的令人印象深刻的相机定位能力。

论文地址：https://arxiv.org/pdf/2404.06337

MicKey是一个神经网络，能够在剧烈的视点变化下将两个相机视图相对定位。

MicKey甚至可以处理需要人类花费一些努力才能弄清楚的对立镜头。

更令人兴奋的是，MicKey仅使用很少的训练数据，就取得了这样的成就。

MicKey限制于双视图输入，并在相对较少的数据上进行了训练，但它仍然是关于LGM潜力的概念验证。

显然，要实现高级空间智能，还需要海量的地理空间数据。

而Niantic的独特优势在于，每周都会收集超100万用户贡献的真实世界地点扫描。

多模型互补，重定义空间智能未来

LGM绝不仅仅是一个简单的定位模型。

为了很好地解决定位问题，LGM必须将丰富的几何、外观和文化信息编码到场景级特征中。这些特征将启用场景表示、操控和创造的新方式。

可以想象出，一个能够「理解」场景的智能系统，不仅能定位，还能感知周围环境深层次特征。

像LGM这样多功能大型AI模型，因其对多种下游应用的实用性，通常被称为「基础模型」。

未来的智能体系统，不再是孤立的存在，不同类型的基础模型将相互补充。

LLM将与多模态模型互动，而后者又与LGM进行通信。这些系统协同工作，以单一模型无法实现的方式理解世界。

这种互联是空间计算的未来——智能系统能够感知、理解并对物理世界采取行动。

随着迈向更具扩展性的模型，Niantic目标仍然是引领大规模地理空间模型的发展，创造前所未有的用户体验。

除了游戏，大规模地理空间模型将在空间规划与设计、物流、受众参与和远程协作等方面有广泛的应用。

LGM代表着AI进化的有一个里程碑。

随着AR眼镜等可穿戴设备变得更加普及，我们正迈向一个由物理和数字现实无缝融合的未来。

参考资料：

https://nianticlabs.com/news/largegeospatialmodel

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：新智元

http://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247576524&idx=1&sn=3ce743cf24439cd353cd69eb3377d139

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

最新文章

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

逼真到离谱！1000个人类「克隆」进西部世界，AI相似度85%细节太炸裂

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

一文解读：时序基础模型的缩放定律

OpenAI「23个黑手党」出走创业，融资近百亿！华人科学家约占1/3

10种数据预处理中的数据泄露模式解析:识别与避免策略

「谍战」开启！基建狂魔马斯克122天交付10万卡超算，对手大恐慌派间谍飞机侦查

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

Github上的十大RAG(信息检索增强生成)框架

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

ChatGPT深夜两弹更新！macOS版联动三款IDE无缝编程，Windows版全量上线

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

哈佛推出全新类ChatGPT癌症诊断AI，登上Nature！准确率高达96%

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

川普赢了，AI圈炸了！英伟达市值突破3.6万亿， OpenAI研究员：他或将见证AGI诞生

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

特朗普回归，美国AI解禁！马斯克变身全球首富，硅谷科技圈颠覆在即

软体机器人领域顶尖学者齐聚清华！第九届软体机器人大会将于11月15—17日在清华举行

从今天起，ChatGPT入口就是chat.com！

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

英伟达3.4万亿市值稳坐全球第一！苹果12年霸主地位终结

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

AI圈卷疯了！xAI、Anthropic同日上线API：Grok免费公测，Claude 3.5 Haiku价格暴涨

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉