冰山 | 在 XR 里做 Avatar 是注定失败的一步?创业思想实验室 #01:虚实之间 Allen

文摘   科技   2024-09-25 16:01   上海  


引言「创业思想实验室」栏目整理收录国内外行业最一线开发者的产品和运营思考,我们相信创新的价值和效用日新月异,好的灵感值得与大家共勉

本栏目欢迎投稿,首期嘉宾是虚实之间 CEO Allen,曾在腾讯、抖音担任产品经理,目前在做 XR+AI 的互动娱乐产品的创业,已获头部美元基金天使投资。


添加主理人(微信:xrvoyager)

与 Allen 聊 XR+AI 创业

—————— · ——————

本文阅读时间约为 15 分钟


在 XR 里做 Avatar
是很失败的一步

虽然 XR 把内容形态升维了,但很多内容的信息含量并没有升维,相比于读文字的蕴含和一目十行的效率,相比于图片视频的冲击和每一个独特像素的复杂信息,现在 Avatar 技术基建还不够完整——外观信息不怎么变,表情动作不怎么变,自己搭创作者工具还不如用 convai 性价比高,AINPC 说出来的文字也是 LLM 的二手鹦鹉胡言乱语,不搭配丰富 context 并缩减边界进行合理组织,怎么可能成为新的内容载体。

可读性强的信息量的提升,比形式维度升高重要多了。时至今日,人们依然在寻找 Context。过去这么多年,人们都在追求信息的链接效率,可 XR 未必是一个三年内看得到更优解的内容链接平台,XR 硬件也看上去短时间很难成为普及的内容载体。为了追求那一丁点儿的信息流动性,不断请求硬件平台对权限开放的施舍吗?我继续杠下去的意义是什么呢?该探索的都探索完了,心里也都有点答案了。

现在想想 OS 层能力中,跨应用文字图片的复制粘贴功能都比 VST API 有用,VST API 权限明年开完之后也只是在做加工而非创造。而且,如果没有系统端侧能力辅助开发者加工(比如识别分割、Mesh 结构化处理等,靠应用层自己做云端 VisionLLM 的推理识别现在成本太高昂了,转嫁给用户完全撑不起量,对的事情+错的时间=虚假的杠杆。

奔着赚快钱的思路,今天独特的三维信息量生产和传播难度依然很高,那就先服务于用户/玩家的幻想,把 XR 用户同样想要的特殊的视觉与互动体验做好,才是最落地的事情。做无数个 NPC 的 Avatar,甚至不如只做一个 AI NPC,然后让无数 UGC 的动作衣服配饰改模来只适配这一个 Avatar 的身体。想做三维的 UGC 也是不可能不依赖 AIGC 的,而且成本难度依然这么高,不可能不做 PUGC 和普通用户的消费场景分离,类比装修也是一种三维创作,难度可想而知。


次世代社交到底是什么

自去年年底以来,我确实完全放弃了在 Quest 上做社交 APP 的想法,我觉得除了游戏社区和社群 Clubhouse 这两条不赚钱的路以外,几乎没有任何更贴近「社交而非「UGC 游戏的社交场景需求,除非接下来 Apple Vision 能有更超写实的 Persona 画质或开放在线监听/调用/录制等 API 权限的场景,并且硬件卖的很便宜,那我觉得还有机会成为午休和晚间时,家人朋友同事联系的一种补充社交场景。这种社交形态的形式升维并不是最关键的因素,反而是在信息量上因为时空关系上产生了新的变化而让社交体验覆盖了更多的场景

再比如 Meta Rayban 系列,如果 Meta Connect 大会宣布能开放第三方应用生态,那只用这很牛逼的阵列麦克风和近耳喇叭,就也能再造一个比对讲机和微信语音更好用的社交 IM 补充。至于摄像头 API 的社交场景,还是先等 Orion 这类双目全彩异显的硬件价格打下来自己闭环,如果只有单向的视频传输是不平等的社交,不会流行的,顶多成为 OnlyFans 和抖音主播的工具。

满打满算从正式筹划创业到现在差不多刚好两年了,出发点是希望提升「信息与效率,做着做着就被各种噪声干扰了,现在败也败在对「信息与效率的理解还不够,最后的一两发子弹,我希望这次能精准命中需求与事实的靶心。


多屏并非更优解

人类不需要多屏,主动查找和被动通知比静默摆放在屏幕右下角更具价值。多屏唯一的意义,就是对常用高频操作平铺后降低了切换的时间成本来提高效率。大部分普通人是不需要在严肃工作中并行多路操作的,甚至也没这个能力。

XR 唯一的特殊价值是双目立体视觉,其次才是大屏;大屏不是多屏,大是指能恰到好处的大的自由,而不是无限的大和无限的多。
信息在该触达时触达,该操作时提出建议操作,而不是累赘的平铺,娱乐交互也同样如此,所以 AI 加持下的 GUI 革命不一定要发生在 XR 里,而应该是发生在 GUI 本身,把复杂的界面动态减少,保留一条常用个性化路径养成肌肉记忆,和无数条动态的主动查找与被动建议的路径。
人类最灵活的十个手指头,无非也就是在用两三个指头完成 3-5 个常用 CTRL & ALT 的组合快捷键,和十几个不常用的组合快捷键,这些不需要靠 GUI 和 LUI 取代,只是在交互上留个口子能继续保持就可以了。
拿一个娱乐场景举例,人们也不是完全不需要 VAM 和 DanceXR 的密密麻麻的 GUI 窗口,相反人们只是在创作时需要、知道自己的创作的工具性能力边界在哪里,但靠平铺分类的选项入口不一定是最佳选择,一旦超过了人们的一目了然的可阅读理解能力,就成为了高昂的学习成本,AI 整理归类、LUI 查询、AI 意图推荐,应该是创作场景下 GUI 迭代的方向,让创作变得更简单(屏幕小的手机和效率低的 XR 都有这样的痛点
人们在单一信息通道下的操作体验是最无痛的,人类的思考其实是线性的,脑海中那个声音和不断闪过的想法其实也是一种带幻觉的 CoT 思维链,创造力是在挨个 RAG 爬取网状的记忆库时,突然超过了自己认知的一个置信度,这才有了最终的 Action 行动或判断。
继续拿娱乐场景举例,在非创造场景,也就是娱乐消费场景下,人们的享受可能也是受「单一信息通道所影响的,看就是看、玩就是玩、想就是想,看似有三条并行的信道,但每一个切片都是单独操作的。Galgame、策略、FPS、MOBA 这些游戏品类的多信道组合操作有些很频繁,所以门槛越来越高,受众越来越少。好的娱乐产品就应该是简单交互,华丽视觉,复杂信息量的。至简的交互其实就是在有限的选项中做选择,甚至不选择。再类比下,只需要双手移动的 Gorilla Tag 就是相比复杂交互的 VRChat 有形态上的优越性的。
不是不能做复杂交互的产品,游戏确实是非常典型的反例,但游戏也在尽可能的简化并行操作转为线性操作把体验拆碎到线性的流程中,以寻得一条更平滑的上手/成就感曲线。简单交互的产品形态天生具有优越性在 XR 硬件设计和 XR 应用/游戏/产品上,都要 make it simple,因为大脑是单信道的。


伪 3D 是弯路吗?

图片到视频的过程中,GIF 是一段内容形态的弯路吗?为什么短视频相比于长视频不是弯路?过去不可评价+不可互动的内容算是弯路吗?
类比一下,在真实世界和 XR 的数字三维交互空间中,空中悬浮的 2D 内容是一段弯路吗?Live2D 会是一段弯路吗?首尾帧图片生成视频会是一段弯路吗?深度图转 3D 场景会是一段弯路吗?双目视角的两个视频实时生成伪装 3D 内容会是一段弯路吗?
可大规模供给+上限之下有被认可的高信息量/强烈情绪,就是好的内容,不应该被形态定义而应该被结果定义。
「构建机制上的 SOP,让 AI 来激发高级情绪,无论是幽默、解压、认同,还是其他任何情绪,应该是有迹可循的,因为人类想要大规模产生这样的供给,也是要上「起点登神作者写作培训课的,把培训课固化为 Prompt 工作流也许就可以了。
如果 AIGC+真 3D/伪 3D,它的内容质量是 OK 的,rule34 之类的长尾内容是否应该成为每个个体的主流而非大众的主流?

欢迎今天还能出手早期的投资人对 XR/AI 应用有想法的年轻人添加 Allen 的微信和他聊聊。

—————— · ——————
你可能还想看

—————— · ——————

XR航海家
见证 XR 发展,立足科技前沿,解密未来生活。我们做你 XR 冒险旅程上的哥伦布,为你展开一代人的新大陆。
 最新文章