文|于丽丽
“暗涌Waves”独家获悉,AI视频生成初创公司智象未来,继完成敦鸿资本领投的Pre-A轮融资后,又新获以合肥产投为主的国资基金领投的A轮融资,融资规模共计数亿人民币。同时参与投资的还包括安徽省人工智能母基金和湖北省长江电影集团有限公司等机构,此前曾获阿尔法公社与讯飞两轮领投。
智象未来是全球第一家上线文生视频的AI公司。创业之初,创始人兼CEO梅涛就精心算了一笔账:从对算力和资源的依赖看,相比大语言模型,多模态模型是一种绝对的降维;而从商业化的可能来看,它又可以走的更早、更快。这看似是一种更理性、务实的浪漫,但现实显然比想象的要更为冷酷。从年初的Sora、年中的可灵、再到Google Veo 2,2024年的视频生成早已是兵家必争、且其狂热丝毫不亚于大语言模型的赛道。即便如此,创业仍是梅涛这代AI研究者很难拒绝的一种诱惑——AI从未如此接近商业和现实。作为中国科学技术大学毕业生,在微软的12年,梅涛登顶过学术的高峰:在多媒体分析和计算机视觉领域发表论文300多篇,先后15次荣获最佳国际论文奖。他不仅成为IEEE Fellow和加拿大工程院外籍院士,也是科技部科技创新2030人工智能重大项目首席科学家。这段经历,也让他看到从技术到产品的鸿沟,并最终决定要把这个链条打通。2018年之后在京东的五年,是梅涛步入工业界的开始。作为京东副总裁和京东探索研究院副院长,他开始了技术到商业化的探索之路。之后,他创立的智象未来,则是更密切地将这一切串在了一起。梅涛的创业境遇,很像这个时代AI创业者的一个切片:拥抱产品时,不能放弃模型,否则很可能被吞噬;试水国内市场时,又不能放弃出海,因为国内消费市场有很多创业公司无法撬动的困局。至于融资,在当前的资本冷周期中,往往意味着,创业者还要把信心反哺给投资人。这些也让梅涛意识到,在大公司做高管和自己下场创业的真正差异——前者是你的身后,始终还有别人;而现在“你后面没有人了”,“所有问题都会到你这里来,而你必须要把它们都处理掉。”以下是创业一年多,梅涛关于融资、商业化等方面的一些心得总结:
1. 前段时间,Sora正式发布,但整体功能跟我们的预期差不多。客观来看,在当前的视频生成领域,OpenAI已不再具备太大优势。刚出来时,它虽然只是个Demo,却让整个方法论都发生了改变;但时至今日,从产品落地角度来看,无论是海外还是国内的其他产品,其实都已经相差无几。2. 今年开始,视频生成整个赛道变得很拥挤。6月份,可灵和Luma AI上线,我们在7月的上海世界人工智能大会上也官宣了新模型上线。8月是MiniMax 海螺、最近是World Labs和Google Veo 2,它们甚至已经从图片处理过渡到3D领域。竞争的炽热,来自这个赛道更短的商业化路径,和相比于大语言模型更快的产品落地速度。3. 去年全球AIGC的真正收入大概有200亿美金,其中50~60%的收入来自视频和图像生成,或者是跟图像视频相关的工具性收入;30%是跟大语言模型相关的,比如chatbot类的收入。所以很多公司开始往这个赛道转,它已经成为大模型公司的必争之地。4. 对于初创公司来说,我们不会跟OpenAI、字节这些大厂正面竞争,我们一是要在算法上有独辟蹊径的创新,二是要把细分行业的最后一公里问题解决好,用产品和闭环价值占领用户的心智。大厂有算力,特别是C端流量的优势,但他们要为财务报表负责,所以一定会紧盯主流赛道的业务,产品也必须服务好现在的主流产品,像字节的即梦也好,快手的可灵也好,都要服务好他们现有的创作者生态。5. 我们绝不会在大厂的路径上去做重复的事,而是有自己专业的、细分的领域。之前我们做的是1+3+N,指的是一个大模型、三个核心产品加很多场景生态。之后我们会发布一个新的、对标GPT-4o的多模态理解模型,将这个“1”做厚做宽。6. 模型方面,我们自主研发了对标OpenAI Sora的全球首个商用百亿级参数的视频生成大模型。我们有国内最全的多模态版权语料、数十万小时版权视频素材以及上万个授权IP。不仅涵盖了国内70%影视数据,且已形成上亿条AIGC二创素材,目前在影视、文旅、营销等场景得到广泛应用。截至11月底,累计服务100多个国家和地区的1000多万用户和4万多家企业,月度经常性收入也实现了规模性增长。7. 同时,我们即将发布一个MoE架构的混合专家新模型。训练时,它不只有DiT(Diffusion Transformer架构,也有AR(Auto-Regressive)架构,而且能集合两者优势,既把DiT架构的视觉生成效果体现出来,又能把AR架构中Token的离散化问题解决。目前我们已在图像上得到验证。从模型整体来看,我们先做了生成,又做了理解。未来我们会有一个大一统的模型架构,把理解模型和生成模型融合为一个统一的架构,目前还在实验阶段。再往后,我们也希望能把我们积累的国内最全的版权视频素材做成AI视频搜索服务。8. 除大厂外,转到这个赛道的底座大模型公司也有其独特优势,比如它们有万卡集群的架构经验。但从对视频生成的技术路线和对数据的理解来说,我们这些多模态原生的创业公司,要更垂、更专。另外视频生成领域的市场很大,有的公司动画风格做的好,有的公司写实风格做的好,有的影视级风格、3D做的好。绝不是一家厂商能把所有的事情做好,不同公司和用户之间也不是完全重合。因此,赛道的拥挤并不会影响我们按照自己的节奏前进。
9. 都说这代AI创业者,DAY1就得既要星辰大海,又要脚踏实地。从我们创业第一天起,我们就非常有危机感意识,就想着怎么样去找PMF。我们在商业化方面走得比较早,也比较快。虽然我们融的钱并不是最多的,但是花的每分钱、招的每个人、我们都是想明白的。
10. 这也和我之前在京东所受的训练有关。京东是一家零售企业,所以公司文化讲究精细化运营。很多时候,老板会用极限思维,就是用最少的资源来做成一个业务。除此外,产品三要素——成本、效率和体验,也被再三强调缺一不可。这放在任何公司,任何产品也都成立。我们公司对商业化做了很多尝试,也交了一些学费,慢慢的找到感觉了。11. 做C端产品,我们一定要考虑的是怎么解决双非百的问题。现在的AIGC产品有两个非百问题:一是用户不能百分百用好产品,二是模型不能百分百生成用户期望的效果。因此,AIGC产品目前需要跨越两个鸿沟:如何从技术尝鲜者到专业用户,以及如何从专业用户到普通用户。我们的C端产品增长势头强劲,前不久也出现在2024 中国AI产品榜出海产品潜力奖榜单上。12. 至于企业端,以前我在京东做供应链分析时,就了解到中国企业虽然数量多,但真正规模化的企业并不多。这种情况下,让企业“买东西”还是比较难。中国的SaaS也一直很难破局,但AIGC技术出现后,有可能改变这种处境。13. 做企业服务,我们的KA客户,主要是一些央国企和头部的互联网企业。去年,我们给品牌商做上架的商拍产品叫PixMaker。今年战略升级后,我们开始做营销素材的生产,特别是为短视频的营销生产提供工具。因为我们觉得AIGC相关的最大产业是内容生产,而内容生产里最大部分是跟营销相关。目前,我们已经有四万多家合作的中小企业,大企业也有超过百家。像我们跟运营商合作推出的AI视频彩铃,就可以把我们AIGC产品变成一个真正的国民级产品。14. 此外,我们比较关注工具化和SaaS服务。我们觉得国内有个好处,是可以先通过服务大客户把产品打造好,再反向去出海做SMB(中小客户)服务。SMB和大C或专业个人用户,产品逻辑基本一样,都不需要做点对点的服务,我们已经有好几款产品做得不错。说到底,商业化我们主要做了两件事:一是给创作者提供好的创作平台和内容生态,二是给需要做营销的品牌企业做好广告内容生产,未来我们也会探索从生产到投放环节的尝试。
这代创业者的融资解法15. 前不久,我们拿到两笔融资。一笔是市场化基金,一笔是国资,我们把Pre-A轮和A轮放在一起了。前者是专注于文化科技领域知名头部基金敦鸿资本,后者是以合肥产投为主的国资基金,也包括安徽省人工智能母基金、湖北省长江电影集团有限公司等。现在的AI初创公司很难去融美元基金的钱,这是不争的事实。所以,我们现在是两条腿走路——国资的在谈,市场化和产业资本的也在谈。16. 拿国资融资时,我觉得要考虑国资背后的政府着力发展的产业方向是否和公司方向吻合,以及能否把公司往龙头或链主企业打造。现在的国资,比如像合肥产投,他们也有很专业的视角、看法和尽调,有基于市场的判断。而且国资也代表了当地政府的一些产业方向,初创公司也可以借助这种势能。17. 去年我们第一轮融资,来自一个名为“中喝大”的中科大校友群。这个群大概100多个人,基本由中科大一些企业家和学者组成,平时经常一起组织校友活动,做一些创业方面的交流。就是这个群的15个中科大校友,组成一个合伙人LLP,来支持了我们的第一笔融资。一直以来,中科大的培养模式都是培养偏数理化的科学家,所谓“千生一院士”。但在工科以及商业方面就显得不那么突出,所以他们就想一起扶持一个人来做这件事,而我正好也想出来创业。这笔钱被称作“中喝大种子一号”,可能很快就会有种子二号和种子三号等。18. 最开始融资时,还有一些美元基金进来,他们喜欢大故事,越星辰大海越好;但后来,美国法令条款出来后,很多美元基金就不敢投了,我们就换成了人民币架构。关于美元还是人民币,我觉得取决于你的业务在哪里、客户在哪里。如果未来我们的业务真的能做到全球化,我们也可以去拿美元基金,架构也是可以调的。19. 三年前你出来创业,100块钱随便拿;但现在,70%的美元基金已经不可能了,还剩30%的人民币又四处分散。可能其中只有一小部分是产业基金,而且现在产业资本也变谨慎了。目前多模态的创业公司,能在外面融资的,现在也没几家。如果在十年前,至少得有十几家吧。但逻辑都是一样的,如果没有商业化数据,最后谁来接盘?我过往的工业界经历告诉我,一家公司一定要创造真正的商业价值,要给股东创造价值,否则这个公司没有意义。20. 我经常跟我的投资人说他什么时候可以退出。我们的上限有多高,我不知道,因为很多时候取决于大势和一些偶然;但我会告诉他,我们的下限有多高。那就是,我会保证我们的公司健康、稳定地去运行。
21. 创业让我觉得我的人生从未如此完整过。在一个大公司做高管,只要把技术或者团队管好就行了,至于战略,你后面还有老板。成为一个创业者就不一样了,你后面没有人了,所有的问题最终都会到你这里来,而你必须把它们终结。22. 每个加入创业公司的人,一定要自己先做好心理建设,你必须得自己想清楚。否则遇到一点点困难,就会想我凭什么要来受这个罪?我经历过技术到产品,中间又做了一段商业化,但真正创业时发现还需要更多的东西。23. 2015年左右,四小龙起来时,我还在微软。当时很多人找我出来创业,我没出来。一是觉得自己羽翼没丰满,学术上还可以再往前一步;另外觉得那波浪潮的商业模式还比较薄。我选择在2018年出来,是觉得自己学术已经有了一些积累,更想去all in一个产品。24. 在微软研究院,我们就经常说,从一个技术到一个产品,可能需要一百个工程师;要把产品卖好,可能还需要一百个解决方案专家或BD,可见中间的Gap有多大。当时我就想,我一定要找个地方去把链条打通。后来去京东,我做的每项技术都用到了产品里。这个过程可以看作:从技术到产品,到一条业务线,再到一家公司。25. 当时选择视频这个赛道,也是一种理性思考的结果。去年我们判断,做大语言模型竞争过于激烈。而视频生成在国内和国外的差距并不大。另外,商业模式上,大语言模型是用在人机交互和理解上,讲究的是准确性,出现幻觉会比较糟糕。而视频生成是一种数字创意产业,用户不会那么在意幻觉问题。去年3月公司成立,5月拿到第一笔钱,8月第一版智象模型就在HiDream.ai网站上线了。当时,我们是全球第一个上线文生视频的AI公司。26. 我们既做模型,又做应用。如果模型不自研只做应用,就太单薄了,很可能被模型击穿。但我们做的不是通用模型,而是垂类模型。我觉得只要保证在这个领域里面,我们模型的能力一直是全球最好那一批,以及我们的产品能解决好用户体验的最后一公里问题,这家公司就能成立。27. 一路走下来,会发现做企业家,比做科学家挑战更大。科学家可以每天只需要想0-1的创新,不需要解决具体的产品化问题;而对于企业家来说,做完0-1后,还得把1做到100,再做到10000。这个过程,你要消除自己的ego。让自己从之前某个专业的顶峰先下来,自我清零,再去爬另外一个顶峰。创业时,我就是在主动打破自己的舒适区去寻求这种改变。28. 现在的环境下,创业者确实需要成为六边形战士。但我现在越来越享受不确定性。人工智能浪潮,往前看60年,是三起三落。我们现在正处于第三波浪潮的中间,还没往下落。我始终觉得人要顺势而为。当浪潮来临时,不要逆流而动,而应顺势跳跃,乘势而上。
29. 我愿意把未来十年放在这个公司,把商业从头到尾经历一遍。如果未来有机会,我希望可以把这些经验传授给年轻人。在这样一个环境下,有很多事等着你去做,这也很好。为什么很多财务自由的人要去登一次珠峰,就是因为人会始终想着去找新起点,而不是闲着,骤然老去。