2023年10月,耗费半年、几乎倾注所有精力的一轮融资被drop后,影眸科技创始人吴迪整个人都是懵的。来不及思考更多,影眸科技进行了成立以来第一次大规模人员调整。吴迪本想迅速融一轮小钱保证公司运营,但环境down到不能再down。融资的失利坚定了他们拓展全品类3D资产生成能力的想法。彼时市面上已经有团队推出过基于2D升维技术路径的3D生成产品,这是学术界的主要路径。但他们看到了 2D 升维路径的瓶颈:只能记录真实物体的一个侧面,无限多角度的图像也无法完整描述3D内容。唯一的解法是,从一开始就使用 3D 原生数据。几乎是孤注一掷,连团队原本负责电影项目的艺术家也被抽调去做模型标注。基于CLAY的3D引擎 Rodin在去年6月推出,CLAY是影眸和上科大联合推出的3D原生Diffusion Transformer生成式大模型,这项研究让他们获得了SIGGRAPH2024最佳论文荣誉提名。45 天后,Rodin 达成了 100 万美元 ARR,吴迪说,这是他们后来被大厂看中的主要原因。暗涌Waves获悉,影眸科技完成了新一轮数千万美元A轮融资,本轮融资由美团龙珠、字节跳动领投,老股东红杉中国种子基金及奇绩创坛跟投。影眸过去总被冠以“学生创业”的标签,甚至核心成员现在仍在实验室读研、读博,但团队走过4个年头的当下,CTO张启煊说,“小天才”已经逐渐把商业化、产品可用性放在首位。吴迪还记得自己刚进入上科大时,学校还是一片工地,他甚至不知道这片工地会不会真的变成效果图上的现代化校园。但刚高考完的他并不在意,比起墨守成规地读完书、去国外深造,回国进入大厂的路径,这个几乎完全留白的曲谱对他更有吸引力。以下是影眸科技创始人吴迪和CTO张启煊对过去创业历史的回顾,其中也有对3D赛道未来的理解,经暗涌Waves编辑:
1. 影眸的诞生是从实验室一个难题开始的:如何把人与物放到虚拟世界中。为了达到这个目标,我们在2020年推出了第一套人脸扫描系统,可以采集人脸在不同环境光照下的表现,来合成全新光照下的人脸显示效果。2. 但这项技术在实际应用中接连碰壁。我们曾经进入过《流浪地球2》的换脸项目,但最终没有合作成功。原因在于,初代穹顶光场侧重于采光,是拼凑出人在光照下的展现效果的,而摄像机视角固定,模型无法运动。最后只能用在特定视角——比如完全静态的镜头。光场还只能收集几何信息的数据,无法识别材质,对人脸褶皱之类的动态信息无能为力。3. 那个时候我才意识到,学术界的研究和工业界需要的东西存在巨大差距。布线优雅、UV规整、能被渲染、可以调整表情、也能在游戏里实时驱动的3D建模,才是工业界所需要的。等待新一代穹顶光场更新期间,我们就想基于生成式网络技术做些尝试。4. 影眸在当时做了两款产品,其中一个叫Wand。这款APP很简单,就是用户在画布上简笔勾画,Wand就会生成真人头像。产品开发只花了两周。第一代真人头像没有任何波澜,我们就把生成结果从真人换成二次元图像。结果Wand登上了App Store图形和设计类排行榜的第一名,有超过160万注册用户在Wand上“画二次元老婆”。5. 但Wand只是一款简单的工具,用户没有留存,我们没想出好的收费模式,没法平衡用户和算力支出。接下来要么钻研技术、延伸更多功能,或者做成二次元社区。但我们是不相信2D技术的,8人的全理工团队也找不出一位擅长社区运营的。最后认命接不住这波流量,把2D业务线全砍了。6. 回头看,Wand 已经完成了它的历史使命,帮我们赚到了第一笔钱,虽然只有6000,但更重要的是帮我们完成了天使轮融资。我们还是相信,下一代显示设备和交互方式会在三维层面进行。
谈方向选择与3D生成的未来:摇摆与决心
7. 拿到融资后,元宇宙正火,我们靠着数字人和元宇宙的东风拿到了第二笔融资。当时我们的想法是,现有的数字人最终将转变为ID型数字人,成为每个要进入虚拟世界的人的标配。于是在2022年底推出了DreamFace和基于此框架的3D角色生成器ChatAvatar,已经能做成至少配角级、带骨骼绑定的模型。
8. 但我们入场的时机赶上了元宇宙的尾声,商业化进展不顺,举步维艰。那年我毕业,把办公室搬出上科大实验室,赶上疫情封城,白交了半年房租。9. 到2023年,我有6个月的时间在谈新一轮融资,结果在一夜间领投方选择放弃,我整个人都是懵的。本来还想先融一两百万美金,活下去再说,但环境简直down到不能再down。我让财务每周给我看两次账上的余额,盯着现金流,勉强维持着收支平衡。那时候我意识到,在有新的milestone前,影眸不可能再融到钱了。10. 我们之前已经将广泛的生成式3D提上进程,但同时也面临着一个技术关键选择。3D 生成的技术路线大致可以分为两种:2D 升维和原生 3D。前者通过海量2D 图像数据训练生成,但由于数据集中于3D 世界,总会出现模型“多头”问题。先用这个技术路径出产品,可能能快速拿一笔融资,但产品离“Production-Ready”会有无法弥补的差距。而3D原生的技术路径能不能做出来,我们也没底。11. 我们最后一致认为,如果需要跟3D工业抗衡,只能用原生3D的训练方法。这种方法的难点常被认为是优质数据不足。但其实,3D生成的瓶颈不在于模型的数据量,而是合适的三维表达和参数规模。关键在于从数据集转化到最终输出,信息损失要尽可能小。12. Rodin就在去年6月推出,是同批3D生成创业公司中最晚发布的。我觉得,当时它的生成质量、可用性都代差级地领先当时的同类产品。2024年最后一天发布的Rodin Gen-1.5,填补了3D生成在尖锐边缘生成能力的坑。对 CAD 类工业模型与硬表面模型,它有绝对优势。13. 但即使如此,AI生成的模型离最终直接可用还有不小的距离。同为内容形态,和视频、图像等领域不一样之处在于,3D是工业级内容,不是消费级,这意味着有确定的行业标准。在拓扑、几何精度、材质、UV展开等问题还没有解决的情况下,AI生成3D离在游戏、电影中直接可用有很大差距。14. 另外,解决普通用户在3D世界的创造能力,也不意味着3D的消费级时代会到来,需要更多前置条件——比如让Vision Pro、Quest 3和IPhone一样普及。之前元宇宙出圈,也更多是B端玩家在自嗨。在提效游戏工业上,3D生成能做的远不及Midjourney。之前在实验室,我们觉得技术等于产品等于公司,但其实技术不等于产品,也不等于公司。15. Rodin也不可能生成游戏或是电影的工业级3D作品,也许未来3D生成会作为一种核心玩法出现在游戏、影视作品中,但3D 原生技术眼下的机会是在存量市场。16. 所以影眸这次把商业化瞄准“游戏外包”:在游戏建模环节,从原画到建模结束,存在一系列可能要返工数次的“废稿”。现在,原画的三视图完成后,可以先用Rodin生成建模草稿,具体细节再由建模师调整,在建模最开始的中模或预览阶段减少成本,或是应用于一些周边的不重要资产。17. 我刚来上科大时,学校就是一片工地,实验室也是新建的。我们几乎见证了上科大从一片废墟到高楼林立的全过程。某种程度上,上科大从无到有,像我们导师说的,也是一次“伟大创业”。而影眸科技这四年,就是这次“创业”的一个注脚。
深度、敏锐、前瞻,为1%的人捕捉商业先机
36氪旗下精选公众号