淘金 | XR,大的真的要来了……吗?(上)
文摘
科技
2024-07-07 15:00
上海
加主理人(微信:xrvoyager)
进吃瓜群、机主群、开发者群、投资人群从意气风发到唯唯诺诺,XR 已经在通往成熟的路上走了 10 年,然而它的商业属性堪比核聚变的技术属性,「人类距离 XR 永远还有 10 年」。前两波浪潮,有无数玩家砸了几百亿美金,大喊「大的要来了」,最后证明确实是拉了坨大的。2023 年,苹果提出空间计算概念并正式把 Vision Pro 推向市场,我们应当怎么看待现在的 XR,是一个创业者和投资者进入的好时机吗?个人观点,敬请拍砖指正。观点仅限于内容发表的这一刻,也许下一秒某个产品经理的灵光一现都有可能把所有东西推倒。如有雷同,是妈妈生的。利益相关:投资机构暖水壶保养师傅、Vision Pro 上海最早到手的怨种,过去因为不务正业在文娱科技、游戏互娱、虚拟偶像、为梦想窒息的元宇宙等赛道投了快十家公司。Vision Pro 完成了 MR VST 产品的定义
作为人类历史上在这一尺度内最精密的科技产品,Vision Pro 为了功能付出了巨大的代价,库克再怎么是供应链达人也没法手搓 pancake,在取舍中只能牺牲了人体工程学体验,贡献了大量互联网笑点。然而科技产品是这样的,初代产品的功臣们只要验证好功能就可以,可是做小要考虑的事情就很多了;「小」和「轻」并不是新科技的常态。很多人可能已经没有概念,在 2007 年初代 iPhone 问世的时候,市占率超过 70% 的塞班大阵营,绝大多数机器的重量在 80-100 克之间;N95 这种带侧推全键盘的旗舰(120+g)和 iPhone 质量相仿(135g)。此后 iPhone 也一路在变大变重的路上狂奔:iPhone 3G 背面鼓大包,iPhone 5、6 连续扩大尺寸(重量控制反而还不错),iPhone mini 需求声音最大但最后变成消失在历史长河中的产品……只能说友商们的同比膨胀速率更大,形态确定后的工业设计追赶时间短,也不需要苹果那种拆机展示「电子黄图」的执着。这并不是在为 Vision Pro 违反人机工程学找借口,只是人类对于尺度和功能的态度常常左右摇摆,就连史上最好的产品经理乔布斯也有预料错误的时候。所以我们更加尊敬两类人,一种是通过材料和工程把产品设计推到极限的产品人,一种是通过把产品功能推到极限的开发者。在 Vision Pro 的这个时间点,显然功能的紧迫性比设计更为重要,因为如果 Vision Pro 在两代内不能证明人类究竟需要 XR 来做什么,不仅自己变成了小丑,「人类距离 XR 永远还有 10 年」的故事还将重复上演。因此,Vision Pro 的极限堆料,目标只有一个,用上了现阶段所有商业化的感官能力,不打折扣地描绘空间计算的清晰图景,为未来十年类似产品的进化铺垫一个连贯的思路。如果说 2023 年上半年,大家还在因为 VR、AR、MR 这些产品定义的严格区分而打口水仗,那么 WWDC 2023 上粉墨登场的 Vision Pro 阶段性地终结了 XR 是什么的讨论,Quest、Pico 等产品的跟进已经说明了他们在产品想法上的迅速统一对齐。在纯 AR 设备各类组件研发进程缓慢的时候,只有 MR VST 能够扛起承担虚拟现实融合的重担,「你的下一代 MR 何必是 AR」,无论是硬件设计冗余,还是软件交互规范,苹果都做好了与现实交互的基建,明确了「融合」用户的真实环境和现实生活,产品才具有蓬勃的生命力。Vision Pro 开卖 4 个多月以来,消费者对产品体验的抱怨主要集中在重、贵,对晕的控诉率较低。仔细研究这些用户的晕眩抱怨,很多原因来自没有正确配置镜片、不适应 pancake 的炫光、light seal 不适配脸型(会带来鼻梁漏光或中间黑框)等问题,而不是显示素质本身带来的晕感。不晕是 Vision Pro 定义的质变,因为晕是完全不能用、产品对某些用户彻底不成立、无法通过任何方式缓解;而重是可以克服的,只是需要找到正确的优化空间。因此,Vision Pro 以 120 分的诚意,完成了超越产品本身应有的 120 分的 MR VST 形态定义,接下来从 1 到 100 的优化难度,要比从 0 到 1 的思考难度小得多。为什么说对从 1 到 100 的优化应该更有信心?定义需要的是非凡的创造力和定力,优化需要的是稳定可实现的工程能力,苹果正在带领整个产业一起研究这条路径的正确解决方案。拿我们前面谈到的不晕举例,核心原因是可以拆分成硬件设计的两个条件,只有苹果有魄力把这件两件事在同一个高客单价产品上做掉。第一,R1 芯片。通过各种拆解分析,我们现在已经知道,R1 是将空间关系处理系统与应用计算系统解耦的创造性方案,它保证了 XR 设备体验的安全一致稳定。R1 芯片是人与现实世界、应用与现实世界的空间位置信息处理中枢,以视觉为核心的传感器数据均由 R1 处理,并且独立于应用层系统——除非遇到内核问题,即使应用全部崩溃,也依然保证 VST 功能不受影响;虚拟窗口应该显示在现实物体的前面还是后面,半透明和阴影的效果应该如何渲染,手部抠像如何精细地实现,这些信息最后都由 R1 合成,且实现了超乎想象的低延迟水平,克服了很多消费者因高延迟造成的手眼不同步的晕眩。这个优点带来的远期裨益是,空间关系和应用计算未来在硬件上也会是解耦的方案。前小米全球总裁、Oculus 业务负责人 Hugo Barra 在近期的文章和访谈中谈到,未来的形态极有可能是「拔下硬件以体验全时 VST,插上硬件以提高性能」,与现有的 OST 硬件方案形成奇妙的殊途同归现象。因此,以 R1 为代表、以 SLAM 和图像处理为核心功能的协处理芯片,也将横跨生态阵营而成为标配。过去,所有厂商受累于高通对 XR 芯片的调教,牙痒痒却没有办法;万有引力、耀宇视芯等国产创业公司,或将为「安卓」阵营的设备补足短板。第二,4K micro-OLED pancake 屏幕。苹果总能找到最好的显示屏方案,虽然目前不确定这是否是性价比最高的方案。有不少评论认为在 Vision 上苹果将会使用另一种显示屏方案,猜测是 Fast LCD 的硅基显示屏,分辨率参数降配但 FDV 略有提升;我不认为这种情况合理,一是苹果需要保持显示这种基本体验的一致性,二是相关产线的价值需要持续兑现。视涯科技等新供应商的加入,能极大缓解屏幕的供应问题,从容应对可能到来(也可能不会到来)的销量跃升。随着产品定义的完成、制造工艺的成熟、良率的提升,整机成本迅速下探是未来一到两年内可预见的事情。VIVO 等其他玩家正在积极研制看齐 Vision Pro 的产品,就在上个月玩出梦想发布了一款 $1X99 的头显,并且已经开放给部分媒体和开发者体验。这个产品未必会产生大量的真实交付,但玩出梦想肯发布、敢发布,表明对产品有较大的信心,也已阐明了价格下探空间。其他手机厂商拥有能够摊平成本的各种资源,如线下渠道、流量投放、生态配合等,可以随 Vision 共同下探到 $1500-2000 的主流价格带,与中高端笔记本价格区间趋近。与此同时,减配平价产品(例如 Quest 3S,大概率是一款完全没有 VST 配置的纯 VR 游戏设备),照顾其他与空间计算相关的场景,会继续提供具备价格梯度、侧重于不同功能和体验的多样化设备。它将继续被 Meta 寄予厚望,成为老外感恩圣诞节最拿得出手送小孩的礼品。如此,「满配跑车」有望在两年后较快跨过 1000 万台门槛,而「减配三突子」也有望维持每年 1000 万台的稳定输出。天然的多模态输入输出设备与场景,
或进入与 AI 量子纠缠、武当梯云纵的阶段
Rayban Meta 产品虽非严格意义上的 XR 硬件,却也以较小的 MVP 验证了可行硬件对多模态场景的重要意义。一个很有意思的观察是,一个人到底称这个产品为 Rayban Meta 还是 Meta Rayban,很大程度上代表了他的屁股到底放在哪边。我的想法是 Rayban Meta 首先是 Rayban,然后才是 Meta。未来一年内恐怕有 50-100 个国内团队会做类似 Rayban Meta 的 AI 眼镜产品,看他们能卷出来什么成绩了。比较讽刺的是,XR 行业很多人都在为 Rayban Meta 高潮……这是两个赛道的东西。Rayban Meta 充其量算是一个可穿戴智能硬件,是一个功能有限的闭环产品,用户还得再下载一个 Meta View app 来与它交互;而 XR 产品,VST 和 OST 就算是华文华武两兄弟,也是一个相对开放,有自由度和开发前景的空间计算平台。智能硬件也许走得更快,但能打通软硬件联动、数据互通的空间计算平台才会走得更远。我们 XR 人应该对自己有信心,「常年搞 XR 的人大都目光灵动,极度自信,且智商逐年上升,最后完全成为天才。搞 XR 会优化身体结构,引发各种无敌超能力。人一旦开始搞 XR 就说明这个人除了样貌以外,智慧品行通通都是上等,这辈子只能在科技上成功!」话说回来,眼手交互+语音交互的用户界面,是完全符合第一性原理的生活化原生 AI 体验场景。我们很多时候觉得 AI 工具难用,是因为一块玻璃板或者一个铝坨坨真的不顺手,我有太多的操作要做:拿起手机,打开相机,对准物体拍张照,放下手机到桌上,离开相机,打开 AI app,上传照片,用手抠字这是什么,等待 AI 的回复一个字一个字跳出来……如果在眼镜或头显中,你的操作可能就简化为:用手指着物体,同时嘴里说这是什么,等待 AI 的语音回复。从 9 步的线性流程到 3 步的并行流程,就像你在生活中和一个朋友交谈一样自然。Rayban Meta 体现了设备承担「眼睛」的职能,这个眼睛不太好使,最多能一次性用三分钟,也已经让很多朋友惊喜了。而 Vision Pro 是第一次有设备真正承担「双眼」的职能,这对于视觉矫正、画面合成、空间控制等重要问题都具有巨大的价值。能理解人是怎么样真的看到的,对机器来说非常重要,这或许还能叠上具身机器人的超级 buff,提供非常具有研究价值的场景和数据。在我的个人猜测中,Apple Intelligence 今年不交付,第一苹果对应当正式发布的产品有更高的要求,凭借服务器和客户端一体的软硬件架构,再加上海量数据训练,端侧模型的参数量和效率显然还有比较大的提升空间,不太可能真的在 2025 年端出一个 2023 年前沿产品就已经达到的生图效果;第二,考虑到多模态对 Vision Pro 的意义,只有真正使用充分的视频流数据,才能充分发挥 Apple Intelligence 的威力,然而毕竟 visionOS 2.0 才刚刚开放对企业用户的视频流权限,完全体的多模态可能至少要等到 visionOS 3.0 的发布了。Vision Pro 的内存为统一的 16GB,Vision 大概率不会做调整,内存容量不是卡住 AI 的点;R1+M2 的搭配(Vision 上则可能是 R1S/R2+M3/M4 的搭配,具体看库克刀法)性能应该也足够,但因为两颗芯片各有分工,Apple Intelligence 的多模态应用如何嵌入两颗芯片的工作流,对延迟和性能是否会有影响,这可能是算法和硬件工程师共同要去研究的大问题。更激进一点讲,考虑到用户隐私的问题,未来 Vision 上有没有可能 Apple Intelligence 是最底层的 agent,其他用户选择的模型都不能直接访问传感器数据,只能拿 Apple Intelligence 处理过的数据呢?这个时间点大家的核心问题是,OpenAI 还卷得动吗,还会引领大模型的跨越式发展吗?GPT-4o 的多模态能力展示非常令人心动,但到现在还没有正式端出来;GPT-5 的时间推迟到了 2025 甚至 2026;Sora 的地位每天都在降低……如果 OpenAI 卷不动,下一个站出来的是谁?还是说,大模型,等一等你的子民,我们得让一代多模态人先富起来?有没有一种可能,XR 作为天然的多模态输入输出设备和场景,会进入和 AI 迭代量子纠缠,左脚踩右脚、武当梯云纵的发展进程?XR 的 Vision Pro 时刻
可比 AI 的前 ChatGPT 时刻,期待市场跳变XR 领域最重要的两个问题是「XR 现在到哪了」和「XR 终点是哪」。想做到什么和做得到什么之间的距离那么遥远,让从业者经常在兴奋和悲观之间切换。在上一章节中,我们简单讨论了「XR 现在到哪了」的务实问题,「XR 终点在哪」则是一个更加不可知的问题。目前看,XR 似乎找不到像 AI 这样依靠 transformer 一招鲜吃遍天,用类似的加工容器、投入不同原料、启动不同发动机的并发生长范式;外界更认的硬逻辑仍然是设备的普及率,XR 应用和内容的形态也似乎找不到相似的路径。本质上,AI 从业者花了将近十年的时间钻研了一项准公共产品的技术路径,这个过程是几乎不计代价的,当中牺牲了无数的技术团队,但只要公共品有朝一日能成功就会掀起新的革命;这一条路径变得清晰可行,生长出新的复现路径、投资思维和产品范式,拐点就是 2022 年 10 月 GPT-3.5 和 ChatGPT 的出现。相比而言,XR 行业没有这样的中间公共品,过去两个周期的起落验证了软硬件都有各自的仗要打,但 XR 整体就是天然产品商业化的领域,只要产品立得住,就能兑现商业价值。所以,XR 的 Vision Pro 时刻,或可比 AI 的前 ChatGPT 时刻,市场将在真正的 pmf 问世的那天完成跳变,一切东西届时都将重新校准市场价值。如果说目前 AI 的商业化是有迹可循,需要为已知的场景添加 AI 能力、改变服务界面,那 XR 的创意则不只是服务界面这么简单。刻舟一时爽,一直刻舟一直爽,但是海面宽阔,求剑才是一场关乎想象力的战争。可以确认的是,手机没有替代电脑,XR 设备也绝不会替代手机和电脑。让适合的设备做适合的事,是科技的善。我们不指望电脑是随时随地使用的设备,不指望手机能够提供一键式的多模态服务,也不会指望 XR 设备的主力体验是 Office 三件套。新一代的 XR 设备也不只是游戏机。笔者曾和某国内大厂前内容生态负责人交流,其认为行业的托底趋势就是变成游戏主机,但如果只是游戏机就将是行业的悲哀。XR 无疑是更加贯彻游戏化交互的媒介,游戏是目前商业模式最成立的内容形式,但并不代表设备就是「游戏机」;在 XR 中,「游戏」的边界还会被大跨步地向前推进和拓宽,和现实的界限也可能越来越模糊,未来的格局绝非是照搬 Quest 纯 VR 游戏产品为主的生态。一位从业十多年、横跨移动和 XR 生态、Web 2 和 Web 3 生态的游戏制作人在谈到 Vision Pro 时说,「记住它会是苹果最差的一款头显设备」,对于整个行业来说也是如此。在明年的下半年,Quest 3S、下一代 MR Quest 产品、Vision,以及其他厂商的产品,将会形成价格和功能梯度都十分丰富的产品矩阵,我们将迎来会一路变好的硬件和软件应用生态,而终端终局将会有一个收敛的过程。在这个过程中,应用短期会顺应单平台的特色,但中长期仍然演变成跨端发展,甚至跨平台发展的多样化发展格局。市场仍处在狂热的 AI 浪潮中,然而危机或已在阵中。本轮 AI 发展过程中,真正实现原生 PMF 的产品可能还不超过 5 个。行业期待的大模型下一次跨代升级或在 2025 年底、2026 初,目前的基建已经进入免费内卷的时代,投资者和用户都期待 AI app summer,但在变现格局不清晰的情况下,仍然有行业失速的风险:科学家在应用层能做的还有多少?在模型层对功能迭代和整合的背景下,应用层能做的事情有什么?古典互联网产品经理在 AI 应用之夏有无用武之地?……极端化地思考,假设 AI 发展失速,XR 是否会成为下一个增长主题?XR 会是具备马太效应还是多点开花?XR 最终会以什么样的方式完成破圈?……另一个对市场参与者比较实际的是,XR 未必会像 AI 一样遭遇政策黑天鹅。望梅止渴是这代中国 AI 基金的伤痕,越来越多中国投资者被迫退出或吃闭门羹的故事在上演,我们不得不讲一个内循环的故事。在 XR 来说,这种情形发生的概率会小很多。消费者差异仍然存在,长期全球化竞争趋势下,我们会玩到欧洲某个小镇开发团队做的游戏,但应用场景更多也是中国玩家擅长的活。对于投资人来说,能够留在牌桌上,并且在同一个牌局里玩,甚至偶尔能当当桌主,也是非常重要的事。当前真的在关注 XR 的国内早期机构不超过 5 家,一方面说明市场空间尚不足以容纳很多机构,另一方面说明 XR 不是准公共品战争,即便是硬件平台级的机会也非创业公司可以染指,而软件服务领域可能是一个个小战场,这种可能性的分布对早期机构来说反而是利好。
上篇主要关注产品本身和市场,下篇关注创业和早期投资,包括 Path 路径和 Method 方法两个章节。不过笔者也还在收敛的过程中,下篇是不是发、发了有没有人看,IYKYK。