重磅!谷歌开源XR-Objects:用AI让物理世界秒变数字世界

旅行   2024-10-04 09:14   北京  

谷歌这次他们要把我们身边的普通物品变成智能交互界面!

谷歌AI最近发布了一个名为XR-Objects的开源增强现实(AR)原型,这个系统能够实时将物理对象转变为交互式数字门户

听起来很科幻?让我们来深入了解这个令人兴奋的新技术。

XR-Objects:现实世界的"右键菜单"


XR-Objects的核心理念是增强对象智能(Augmented Object Intelligence,AOI)。简单来说,就是让现实世界的物体也能像电脑文件一样,轻轻一点就能弹出功能菜单。

想象一下,你正在厨房里准备晚餐:

  • 看到一锅意大利面,轻轻一点,就能显示烹饪时间和温度建议。

  • 拿起一瓶调味料,轻轻一点,就能查看营养成分和过敏原信息。

  • 对着冰箱里的食材,轻轻一点,就能获得食谱推荐。

这就是XR-Objects想要实现的未来!

技术原理:AI+AR的完美结合


XR-Objects的实现依赖于多项尖端技术的融合。让我们来看看它的核心组成部分:

实时物体检测

  • 使用MediaPipe进行物体分割和分类

  • 基于COCO数据集,可识别80种常见物体类型

  • 为保护隐私,系统会自动排除检测到的人物

3D空间定位

  • 利用ARCore进行同步定位与地图构建(SLAM)

  • 通过射线投射(raycasting)将2D边界框转换为精确的3D坐标

多模态大语言模型(MLLM)

  • 每个检测到的物体都会与一个MLLM(如PaLI)配对

  • MLLM分析裁剪后的物体图像,提供详细信息(如产品规格、评价等)

用户交互

  • 支持触摸和语音两种交互方式

  • 语音命令通过语音识别引擎处理,结果显示在物体上方的面板中

UI设计

  • 采用世界空间UI,数字元素直接锚定在物理对象上

  • 使用半透明"气泡"标记可交互对象,减少视觉干扰

  • 固定类别和动作的径向菜单,提高决策效率

对象比较

  • 支持多个对象的拼接查询

  • MLLM处理组合查询,生成综合比较结果

应用场景:厨房、商场、博物馆……


XR-Objects的应用前景非常广阔。除了前面提到的厨房场景,它还可以:

  • 在超市购物时,轻轻一点就能比较不同产品的价格和评价。

  • 在博物馆参观时,对着展品一点就能获取详细介绍。

  • 在家里整理物品时,对着不认识的东西一点就能知道它的用途。

这种技术将彻底改变我们与周围环境的交互方式,让现实世界变得更加智能和信息丰富。

用户体验:效率提升31%


谷歌进行了一项用户研究,比较了XR-Objects与传统AI助手(如Gemini app)在完成物体相关任务时的表现。结果令人振奋:


  • 使用XR-Objects完成任务的平均时间为217.5秒,比传统方法(286.3秒)快31%

  • 在HALIE框架评估中,XR-Objects在易用性方面表现更加一致(偏度γ₁ = 0.03,而基准系统为γ₁ = 2.25)。

  • 大多数参与者表示,如果能在头戴式显示器(HMD)上使用XR-Objects会更加理想(F(191, 179) = 1.917,p < 7.05e−08)。

这些数据充分证明了XR-Objects的实用性和潜力。

代码已开源


最为重要的,谷歌已经将XR-Objects的代码开源了!

这意味着任何对AR和AI感兴趣的开发者都可以基于这个框架进行创新和扩展。

谷歌表示,他们希望通过开源XR-Objects,能够推动XR领域的创新浪潮,让数字世界和物理世界的界限变得更加模糊。

AR+AI的无限可能


XR-Objects的出现,让我们看到了AR技术与AI结合的巨大潜力。随着技术的进一步发展,我们可以期待:

  • 更加智能和精准的物体识别

  • 更加自然和沉浸式的交互方式

  • 更加个性化和上下文相关的信息推送

该技术将重塑我们与周围世界的互动方式,让"万物互联"不再是遥不可及的梦想。

那么,你最期待在哪些场景下使用XR-Objects呢?

是在厨房烹饪时获取实时指导,还是在逛街时快速比价?

论文地址:https://arxiv.org/pdf/2404.13274

项目地址:https://github.com/google/xr-objects

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章