淘金 | XR，大的真的要来了……吗？（上）

文摘科技 2024-07-07 15:00 上海

加主理人（微信：xrvoyager）进吃瓜群、机主群、开发者群、投资人群

—————— · ——————

本文阅读时间约为 20 分钟

从意气风发到唯唯诺诺，XR 已经在通往成熟的路上走了 10 年，然而它的商业属性堪比核聚变的技术属性，「人类距离 XR 永远还有 10 年」。前两波浪潮，有无数玩家砸了几百亿美金，大喊「大的要来了」，最后证明确实是拉了坨大的。2023 年，苹果提出空间计算概念并正式把 Vision Pro 推向市场，我们应当怎么看待现在的 XR，是一个创业者和投资者进入的好时机吗？

个人观点，敬请拍砖指正。观点仅限于内容发表的这一刻，也许下一秒某个产品经理的灵光一现都有可能把所有东西推倒。如有雷同，是妈妈生的。

利益相关：投资机构暖水壶保养师傅、Vision Pro 上海最早到手的怨种，过去因为不务正业在文娱科技、游戏互娱、虚拟偶像、为梦想窒息的元宇宙等赛道投了快十家公司。

1 Facts：空间计算平台阶段性成熟

Vision Pro 完成了 MR VST 产品的定义

作为人类历史上在这一尺度内最精密的科技产品，Vision Pro 为了功能付出了巨大的代价，库克再怎么是供应链达人也没法手搓 pancake，在取舍中只能牺牲了人体工程学体验，贡献了大量互联网笑点。然而科技产品是这样的，初代产品的功臣们只要验证好功能就可以，可是做小要考虑的事情就很多了；「小」和「轻」并不是新科技的常态。

很多人可能已经没有概念，在 2007 年初代 iPhone 问世的时候，市占率超过 70% 的塞班大阵营，绝大多数机器的重量在 80-100 克之间；N95 这种带侧推全键盘的旗舰（120+g）和 iPhone 质量相仿（135g）。此后 iPhone 也一路在变大变重的路上狂奔：iPhone 3G 背面鼓大包，iPhone 5、6 连续扩大尺寸（重量控制反而还不错），iPhone mini 需求声音最大但最后变成消失在历史长河中的产品……只能说友商们的同比膨胀速率更大，形态确定后的工业设计追赶时间短，也不需要苹果那种拆机展示「电子黄图」的执着。

这并不是在为 Vision Pro 违反人机工程学找借口，只是人类对于尺度和功能的态度常常左右摇摆，就连史上最好的产品经理乔布斯也有预料错误的时候。所以我们更加尊敬两类人，一种是通过材料和工程把产品设计推到极限的产品人，一种是通过把产品功能推到极限的开发者。

在 Vision Pro 的这个时间点，显然功能的紧迫性比设计更为重要，因为如果 Vision Pro 在两代内不能证明人类究竟需要 XR 来做什么，不仅自己变成了小丑，「人类距离 XR 永远还有 10 年」的故事还将重复上演。因此，Vision Pro 的极限堆料，目标只有一个，用上了现阶段所有商业化的感官能力，不打折扣地描绘空间计算的清晰图景，为未来十年类似产品的进化铺垫一个连贯的思路。

如果说 2023 年上半年，大家还在因为 VR、AR、MR 这些产品定义的严格区分而打口水仗，那么 WWDC 2023 上粉墨登场的 Vision Pro 阶段性地终结了 XR 是什么的讨论，Quest、Pico 等产品的跟进已经说明了他们在产品想法上的迅速统一对齐。在纯 AR 设备各类组件研发进程缓慢的时候，只有 MR VST 能够扛起承担虚拟现实融合的重担，「你的下一代 MR 何必是 AR」，无论是硬件设计冗余，还是软件交互规范，苹果都做好了与现实交互的基建，明确了「融合」用户的真实环境和现实生活，产品才具有蓬勃的生命力。

Vision Pro 开卖 4 个多月以来，消费者对产品体验的抱怨主要集中在重、贵，对晕的控诉率较低。仔细研究这些用户的晕眩抱怨，很多原因来自没有正确配置镜片、不适应 pancake 的炫光、light seal 不适配脸型（会带来鼻梁漏光或中间黑框）等问题，而不是显示素质本身带来的晕感。

不晕是 Vision Pro 定义的质变，因为晕是完全不能用、产品对某些用户彻底不成立、无法通过任何方式缓解；而重是可以克服的，只是需要找到正确的优化空间。因此，Vision Pro 以 120 分的诚意，完成了超越产品本身应有的 120 分的 MR VST 形态定义，接下来从 1 到 100 的优化难度，要比从 0 到 1 的思考难度小得多。

供应链成熟、产能爬坡，
产品进入主流价格带

为什么说对从 1 到 100 的优化应该更有信心？定义需要的是非凡的创造力和定力，优化需要的是稳定可实现的工程能力，苹果正在带领整个产业一起研究这条路径的正确解决方案。

拿我们前面谈到的不晕举例，核心原因是可以拆分成硬件设计的两个条件，只有苹果有魄力把这件两件事在同一个高客单价产品上做掉。

第一，R1 芯片。通过各种拆解分析，我们现在已经知道，R1 是将空间关系处理系统与应用计算系统解耦的创造性方案，它保证了 XR 设备体验的安全一致稳定。

R1 芯片是人与现实世界、应用与现实世界的空间位置信息处理中枢，以视觉为核心的传感器数据均由 R1 处理，并且独立于应用层系统——除非遇到内核问题，即使应用全部崩溃，也依然保证 VST 功能不受影响；虚拟窗口应该显示在现实物体的前面还是后面，半透明和阴影的效果应该如何渲染，手部抠像如何精细地实现，这些信息最后都由 R1 合成，且实现了超乎想象的低延迟水平，克服了很多消费者因高延迟造成的手眼不同步的晕眩。

这个优点带来的远期裨益是，空间关系和应用计算未来在硬件上也会是解耦的方案。前小米全球总裁、Oculus 业务负责人 Hugo Barra 在近期的文章和访谈中谈到，未来的形态极有可能是「拔下硬件以体验全时 VST，插上硬件以提高性能」，与现有的 OST 硬件方案形成奇妙的殊途同归现象。

因此，以 R1 为代表、以 SLAM 和图像处理为核心功能的协处理芯片，也将横跨生态阵营而成为标配。过去，所有厂商受累于高通对 XR 芯片的调教，牙痒痒却没有办法；万有引力、耀宇视芯等国产创业公司，或将为「安卓」阵营的设备补足短板。

第二，4K micro-OLED pancake 屏幕。苹果总能找到最好的显示屏方案，虽然目前不确定这是否是性价比最高的方案。

有不少评论认为在 Vision 上苹果将会使用另一种显示屏方案，猜测是 Fast LCD 的硅基显示屏，分辨率参数降配但 FDV 略有提升；我不认为这种情况合理，一是苹果需要保持显示这种基本体验的一致性，二是相关产线的价值需要持续兑现。视涯科技等新供应商的加入，能极大缓解屏幕的供应问题，从容应对可能到来（也可能不会到来）的销量跃升。

随着产品定义的完成、制造工艺的成熟、良率的提升，整机成本迅速下探是未来一到两年内可预见的事情。VIVO 等其他玩家正在积极研制看齐 Vision Pro 的产品，就在上个月玩出梦想发布了一款 $1X99 的头显，并且已经开放给部分媒体和开发者体验。这个产品未必会产生大量的真实交付，但玩出梦想肯发布、敢发布，表明对产品有较大的信心，也已阐明了价格下探空间。其他手机厂商拥有能够摊平成本的各种资源，如线下渠道、流量投放、生态配合等，可以随 Vision 共同下探到 $1500-2000 的主流价格带，与中高端笔记本价格区间趋近。

与此同时，减配平价产品（例如 Quest 3S，大概率是一款完全没有 VST 配置的纯 VR 游戏设备），照顾其他与空间计算相关的场景，会继续提供具备价格梯度、侧重于不同功能和体验的多样化设备。它将继续被 Meta 寄予厚望，成为老外感恩圣诞节最拿得出手送小孩的礼品。如此，「满配跑车」有望在两年后较快跨过 1000 万台门槛，而「减配三突子」也有望维持每年 1000 万台的稳定输出。

天然的多模态输入输出设备与场景，
或进入与 AI 量子纠缠、武当梯云纵的阶段

Rayban Meta 产品虽非严格意义上的 XR 硬件，却也以较小的 MVP 验证了可行硬件对多模态场景的重要意义。一个很有意思的观察是，一个人到底称这个产品为 Rayban Meta 还是 Meta Rayban，很大程度上代表了他的屁股到底放在哪边。我的想法是 Rayban Meta 首先是 Rayban，然后才是 Meta。未来一年内恐怕有 50-100 个国内团队会做类似 Rayban Meta 的 AI 眼镜产品，看他们能卷出来什么成绩了。

比较讽刺的是，XR 行业很多人都在为 Rayban Meta 高潮……这是两个赛道的东西。Rayban Meta 充其量算是一个可穿戴智能硬件，是一个功能有限的闭环产品，用户还得再下载一个 Meta View app 来与它交互；而 XR 产品，VST 和 OST 就算是华文华武两兄弟，也是一个相对开放，有自由度和开发前景的空间计算平台。

智能硬件也许走得更快，但能打通软硬件联动、数据互通的空间计算平台才会走得更远。我们 XR 人应该对自己有信心，「常年搞 XR 的人大都目光灵动，极度自信，且智商逐年上升，最后完全成为天才。搞 XR 会优化身体结构，引发各种无敌超能力。人一旦开始搞 XR 就说明这个人除了样貌以外，智慧品行通通都是上等，这辈子只能在科技上成功！」

话说回来，眼手交互+语音交互的用户界面，是完全符合第一性原理的生活化原生 AI 体验场景。我们很多时候觉得 AI 工具难用，是因为一块玻璃板或者一个铝坨坨真的不顺手，我有太多的操作要做：拿起手机，打开相机，对准物体拍张照，放下手机到桌上，离开相机，打开 AI app，上传照片，用手抠字这是什么，等待 AI 的回复一个字一个字跳出来……

如果在眼镜或头显中，你的操作可能就简化为：用手指着物体，同时嘴里说这是什么，等待 AI 的语音回复。从 9 步的线性流程到 3 步的并行流程，就像你在生活中和一个朋友交谈一样自然。

Rayban Meta 体现了设备承担「眼睛」的职能，这个眼睛不太好使，最多能一次性用三分钟，也已经让很多朋友惊喜了。而 Vision Pro 是第一次有设备真正承担「双眼」的职能，这对于视觉矫正、画面合成、空间控制等重要问题都具有巨大的价值。能理解人是怎么样真的看到的，对机器来说非常重要，这或许还能叠上具身机器人的超级 buff，提供非常具有研究价值的场景和数据。

在我的个人猜测中，Apple Intelligence 今年不交付，第一苹果对应当正式发布的产品有更高的要求，凭借服务器和客户端一体的软硬件架构，再加上海量数据训练，端侧模型的参数量和效率显然还有比较大的提升空间，不太可能真的在 2025 年端出一个 2023 年前沿产品就已经达到的生图效果；第二，考虑到多模态对 Vision Pro 的意义，只有真正使用充分的视频流数据，才能充分发挥 Apple Intelligence 的威力，然而毕竟 visionOS 2.0 才刚刚开放对企业用户的视频流权限，完全体的多模态可能至少要等到 visionOS 3.0 的发布了。

Vision Pro 的内存为统一的 16GB，Vision 大概率不会做调整，内存容量不是卡住 AI 的点；R1+M2 的搭配（Vision 上则可能是 R1S/R2+M3/M4 的搭配，具体看库克刀法）性能应该也足够，但因为两颗芯片各有分工，Apple Intelligence 的多模态应用如何嵌入两颗芯片的工作流，对延迟和性能是否会有影响，这可能是算法和硬件工程师共同要去研究的大问题。

更激进一点讲，考虑到用户隐私的问题，未来 Vision 上有没有可能 Apple Intelligence 是最底层的 agent，其他用户选择的模型都不能直接访问传感器数据，只能拿 Apple Intelligence 处理过的数据呢？

这个时间点大家的核心问题是，OpenAI 还卷得动吗，还会引领大模型的跨越式发展吗？GPT-4o 的多模态能力展示非常令人心动，但到现在还没有正式端出来；GPT-5 的时间推迟到了 2025 甚至 2026；Sora 的地位每天都在降低……如果 OpenAI 卷不动，下一个站出来的是谁？还是说，大模型，等一等你的子民，我们得让一代多模态人先富起来？有没有一种可能，XR 作为天然的多模态输入输出设备和场景，会进入和 AI 迭代量子纠缠，左脚踩右脚、武当梯云纵的发展进程？

2 Market：曙光已现，整体低估

XR 的 Vision Pro 时刻
可比 AI 的前 ChatGPT 时刻，期待市场跳变

XR 领域最重要的两个问题是「XR 现在到哪了」和「XR 终点是哪」。想做到什么和做得到什么之间的距离那么遥远，让从业者经常在兴奋和悲观之间切换。在上一章节中，我们简单讨论了「XR 现在到哪了」的务实问题，「XR 终点在哪」则是一个更加不可知的问题。

目前看，XR 似乎找不到像 AI 这样依靠 transformer 一招鲜吃遍天，用类似的加工容器、投入不同原料、启动不同发动机的并发生长范式；外界更认的硬逻辑仍然是设备的普及率，XR 应用和内容的形态也似乎找不到相似的路径。

本质上，AI 从业者花了将近十年的时间钻研了一项准公共产品的技术路径，这个过程是几乎不计代价的，当中牺牲了无数的技术团队，但只要公共品有朝一日能成功就会掀起新的革命；这一条路径变得清晰可行，生长出新的复现路径、投资思维和产品范式，拐点就是 2022 年 10 月 GPT-3.5 和 ChatGPT 的出现。

相比而言，XR 行业没有这样的中间公共品，过去两个周期的起落验证了软硬件都有各自的仗要打，但 XR 整体就是天然产品商业化的领域，只要产品立得住，就能兑现商业价值。

所以，XR 的 Vision Pro 时刻，或可比 AI 的前 ChatGPT 时刻，市场将在真正的 pmf 问世的那天完成跳变，一切东西届时都将重新校准市场价值。

刻舟与求剑，一场想象力的战争，
应用长期跨平台发展

如果说目前 AI 的商业化是有迹可循，需要为已知的场景添加 AI 能力、改变服务界面，那 XR 的创意则不只是服务界面这么简单。刻舟一时爽，一直刻舟一直爽，但是海面宽阔，求剑才是一场关乎想象力的战争。

可以确认的是，手机没有替代电脑，XR 设备也绝不会替代手机和电脑。让适合的设备做适合的事，是科技的善。我们不指望电脑是随时随地使用的设备，不指望手机能够提供一键式的多模态服务，也不会指望 XR 设备的主力体验是 Office 三件套。

新一代的 XR 设备也不只是游戏机。笔者曾和某国内大厂前内容生态负责人交流，其认为行业的托底趋势就是变成游戏主机，但如果只是游戏机就将是行业的悲哀。XR 无疑是更加贯彻游戏化交互的媒介，游戏是目前商业模式最成立的内容形式，但并不代表设备就是「游戏机」；在 XR 中，「游戏」的边界还会被大跨步地向前推进和拓宽，和现实的界限也可能越来越模糊，未来的格局绝非是照搬 Quest 纯 VR 游戏产品为主的生态。

一位从业十多年、横跨移动和 XR 生态、Web 2 和 Web 3 生态的游戏制作人在谈到 Vision Pro 时说，「记住它会是苹果最差的一款头显设备」，对于整个行业来说也是如此。在明年的下半年，Quest 3S、下一代 MR Quest 产品、Vision，以及其他厂商的产品，将会形成价格和功能梯度都十分丰富的产品矩阵，我们将迎来会一路变好的硬件和软件应用生态，而终端终局将会有一个收敛的过程。在这个过程中，应用短期会顺应单平台的特色，但中长期仍然演变成跨端发展，甚至跨平台发展的多样化发展格局。

巨大的非共识，
较稳定的全球化同场竞技预期

市场仍处在狂热的 AI 浪潮中，然而危机或已在阵中。本轮 AI 发展过程中，真正实现原生 PMF 的产品可能还不超过 5 个。行业期待的大模型下一次跨代升级或在 2025 年底、2026 初，目前的基建已经进入免费内卷的时代，投资者和用户都期待 AI app summer，但在变现格局不清晰的情况下，仍然有行业失速的风险：科学家在应用层能做的还有多少？在模型层对功能迭代和整合的背景下，应用层能做的事情有什么？古典互联网产品经理在 AI 应用之夏有无用武之地？……极端化地思考，假设 AI 发展失速，XR 是否会成为下一个增长主题？XR 会是具备马太效应还是多点开花？XR 最终会以什么样的方式完成破圈？……

另一个对市场参与者比较实际的是，XR 未必会像 AI 一样遭遇政策黑天鹅。望梅止渴是这代中国 AI 基金的伤痕，越来越多中国投资者被迫退出或吃闭门羹的故事在上演，我们不得不讲一个内循环的故事。在 XR 来说，这种情形发生的概率会小很多。消费者差异仍然存在，长期全球化竞争趋势下，我们会玩到欧洲某个小镇开发团队做的游戏，但应用场景更多也是中国玩家擅长的活。对于投资人来说，能够留在牌桌上，并且在同一个牌局里玩，甚至偶尔能当当桌主，也是非常重要的事。

当前真的在关注 XR 的国内早期机构不超过 5 家，一方面说明市场空间尚不足以容纳很多机构，另一方面说明 XR 不是准公共品战争，即便是硬件平台级的机会也非创业公司可以染指，而软件服务领域可能是一个个小战场，这种可能性的分布对早期机构来说反而是利好。

上篇主要关注产品本身和市场，下篇关注创业和早期投资，包括 Path 路径和 Method 方法两个章节。不过笔者也还在收敛的过程中，下篇是不是发、发了有没有人看，IYKYK。

—————— · ——————

你可能还想看

—————— · ——————

http://mp.weixin.qq.com/s?__biz=MzI3MTI3ODE0MQ==&mid=2247487359&idx=1&sn=2ce96847a7a695c999fbaaaaee5c2ba9

XR航海家

见证 XR 发展，立足科技前沿，解密未来生活。我们做你 XR 冒险旅程上的哥伦布，为你展开一代人的新大陆。