引言:「创业思想实验室」栏目整理收录国内外行业最一线开发者的产品和运营思考,我们相信创新的价值和效用日新月异,好的灵感值得与大家共勉。
本栏目欢迎投稿,首期嘉宾是虚实之间 CEO Allen,曾在腾讯、抖音担任产品经理,目前在做 XR+AI 的互动娱乐产品的创业,已获头部美元基金天使投资。
添加主理人(微信:xrvoyager)
与 Allen 聊 XR+AI 创业
—————— · ——————
本文阅读时间约为 15 分钟
在 XR 里做 Avatar
是很失败的一步
虽然 XR 把内容形态升维了,但很多内容的信息含量并没有升维,相比于读文字的蕴含和一目十行的效率,相比于图片视频的冲击和每一个独特像素的复杂信息,现在 Avatar 技术基建还不够完整——外观信息不怎么变,表情动作不怎么变,自己搭创作者工具还不如用 convai 性价比高,AINPC 说出来的文字也是 LLM 的二手鹦鹉胡言乱语,不搭配丰富 context 并缩减边界进行合理组织,怎么可能成为新的内容载体。
可读性强的信息量的提升,比形式维度升高重要多了。时至今日,人们依然在寻找 Context。过去这么多年,人们都在追求信息的链接效率,可 XR 未必是一个三年内看得到更优解的内容链接平台,XR 硬件也看上去短时间很难成为普及的内容载体。为了追求那一丁点儿的信息流动性,不断请求硬件平台对权限开放的施舍吗?我继续杠下去的意义是什么呢?该探索的都探索完了,心里也都有点答案了。
现在想想 OS 层能力中,跨应用文字图片的复制粘贴功能都比 VST API 有用,VST API 权限明年开完之后也只是在做加工而非创造。而且,如果没有系统端侧能力辅助开发者加工(比如识别分割、Mesh 结构化处理等),靠应用层自己做云端 VisionLLM 的推理识别现在成本太高昂了,转嫁给用户完全撑不起量,对的事情+错的时间=虚假的杠杆。
奔着赚快钱的思路,今天独特的三维信息量生产和传播难度依然很高,那就先服务于用户/玩家的幻想,把 XR 用户同样想要的特殊的视觉与互动体验做好,才是最落地的事情。做无数个 NPC 的 Avatar,甚至不如只做一个 AI NPC,然后让无数 UGC 的动作衣服配饰改模来只适配这一个 Avatar 的身体。想做三维的 UGC 也是不可能不依赖 AIGC 的,而且成本难度依然这么高,不可能不做 PUGC 和普通用户的消费场景分离,类比装修也是一种三维创作,难度可想而知。
次世代社交到底是什么
自去年年底以来,我确实完全放弃了在 Quest 上做社交 APP 的想法,我觉得除了游戏社区和社群 Clubhouse 这两条不赚钱的路以外,几乎没有任何更贴近「社交」而非「UGC 游戏」的社交场景需求,除非接下来 Apple Vision 能有更超写实的 Persona 画质或开放在线监听/调用/录制等 API 权限的场景,并且硬件卖的很便宜,那我觉得还有机会成为午休和晚间时,家人朋友同事联系的一种补充社交场景。这种社交形态的形式升维并不是最关键的因素,反而是在信息量上因为时空关系上产生了新的变化而让社交体验覆盖了更多的场景。
再比如 Meta Rayban 系列,如果 Meta Connect 大会宣布能开放第三方应用生态,那只用这很牛逼的阵列麦克风和近耳喇叭,就也能再造一个比对讲机和微信语音更好用的社交 IM 补充。至于摄像头 API 的社交场景,还是先等 Orion 这类双目全彩异显的硬件价格打下来自己闭环,如果只有单向的视频传输是不平等的社交,不会流行的,顶多成为 OnlyFans 和抖音主播的工具。
满打满算从正式筹划创业到现在差不多刚好两年了,出发点是希望提升「信息与效率」,做着做着就被各种噪声干扰了,现在败也败在对「信息与效率」的理解还不够,最后的一两发子弹,我希望这次能精准命中需求与事实的靶心。
多屏并非更优解
人类不需要多屏,主动查找和被动通知比静默摆放在屏幕右下角更具价值。多屏唯一的意义,就是对常用高频操作平铺后降低了切换的时间成本来提高效率。而大部分普通人是不需要在严肃工作中并行多路操作的,甚至也没这个能力。
伪 3D 是弯路吗?
欢迎今天还能出手早期的投资人和对 XR/AI 应用有想法的年轻人添加 Allen 的微信和他聊聊。