谷歌这次他们要把我们身边的普通物品变成智能交互界面!
谷歌AI最近发布了一个名为XR-Objects的开源增强现实(AR)原型,这个系统能够实时将物理对象转变为交互式数字门户。
听起来很科幻?让我们来深入了解这个令人兴奋的新技术。
XR-Objects:现实世界的"右键菜单"
XR-Objects的核心理念是增强对象智能(Augmented Object Intelligence,AOI)。简单来说,就是让现实世界的物体也能像电脑文件一样,轻轻一点就能弹出功能菜单。
想象一下,你正在厨房里准备晚餐:
看到一锅意大利面,轻轻一点,就能显示烹饪时间和温度建议。
拿起一瓶调味料,轻轻一点,就能查看营养成分和过敏原信息。
对着冰箱里的食材,轻轻一点,就能获得食谱推荐。
这就是XR-Objects想要实现的未来!
技术原理:AI+AR的完美结合
XR-Objects的实现依赖于多项尖端技术的融合。让我们来看看它的核心组成部分:
实时物体检测:
使用MediaPipe进行物体分割和分类
基于COCO数据集,可识别80种常见物体类型
为保护隐私,系统会自动排除检测到的人物
3D空间定位:
利用ARCore进行同步定位与地图构建(SLAM)
通过射线投射(raycasting)将2D边界框转换为精确的3D坐标
多模态大语言模型(MLLM):
每个检测到的物体都会与一个MLLM(如PaLI)配对
MLLM分析裁剪后的物体图像,提供详细信息(如产品规格、评价等)
用户交互:
支持触摸和语音两种交互方式
语音命令通过语音识别引擎处理,结果显示在物体上方的面板中
UI设计:
采用世界空间UI,数字元素直接锚定在物理对象上
使用半透明"气泡"标记可交互对象,减少视觉干扰
固定类别和动作的径向菜单,提高决策效率
对象比较:
支持多个对象的拼接查询
MLLM处理组合查询,生成综合比较结果
应用场景:厨房、商场、博物馆……
XR-Objects的应用前景非常广阔。除了前面提到的厨房场景,它还可以:
在超市购物时,轻轻一点就能比较不同产品的价格和评价。
在博物馆参观时,对着展品一点就能获取详细介绍。
在家里整理物品时,对着不认识的东西一点就能知道它的用途。
这种技术将彻底改变我们与周围环境的交互方式,让现实世界变得更加智能和信息丰富。
用户体验:效率提升31%
谷歌进行了一项用户研究,比较了XR-Objects与传统AI助手(如Gemini app)在完成物体相关任务时的表现。结果令人振奋:
使用XR-Objects完成任务的平均时间为217.5秒,比传统方法(286.3秒)快31%。
在HALIE框架评估中,XR-Objects在易用性方面表现更加一致(偏度γ₁ = 0.03,而基准系统为γ₁ = 2.25)。
大多数参与者表示,如果能在头戴式显示器(HMD)上使用XR-Objects会更加理想(F(191, 179) = 1.917,p < 7.05e−08)。
这些数据充分证明了XR-Objects的实用性和潜力。
代码已开源
最为重要的,谷歌已经将XR-Objects的代码开源了!
这意味着任何对AR和AI感兴趣的开发者都可以基于这个框架进行创新和扩展。
谷歌表示,他们希望通过开源XR-Objects,能够推动XR领域的创新浪潮,让数字世界和物理世界的界限变得更加模糊。
AR+AI的无限可能
XR-Objects的出现,让我们看到了AR技术与AI结合的巨大潜力。随着技术的进一步发展,我们可以期待:
更加智能和精准的物体识别
更加自然和沉浸式的交互方式
更加个性化和上下文相关的信息推送
该技术将重塑我们与周围世界的互动方式,让"万物互联"不再是遥不可及的梦想。
那么,你最期待在哪些场景下使用XR-Objects呢?
是在厨房烹饪时获取实时指导,还是在逛街时快速比价?
论文地址:https://arxiv.org/pdf/2404.13274
项目地址:https://github.com/google/xr-objects
👇
👇
👇
👇
本文同步自于知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!