高临独家|多模态大模型发展趋势

文摘   财经   2024-03-21 10:12   上海  
CFP供图



上个月16日,OpenAI发布最新“文生视频”大模型Sora。针对文生长视频达到约60秒这个水平,且其发布时间相比预期节点要更早,故外界的关注与惊喜程度也较高。而在过去这个月,AI相关其他动态亦频频更新。在此背景下,高临邀请到了业内资深专家,就多模态大模型的发展趋势进行探讨与解析。
以下是此次访谈的主要议程:
  • Sora模型能力点评、生成视频质量、技术路线、大规模开放时间和收费模式预测

  • 文生视频模型的算力需求对于GPU算力卡的需求拉动

  • 国内AI公司各家在多模态上的技术水平、文生视频产品开发能力

专家认为,Sora文生视频将时长突破到15秒以上到最高60秒,且在帧处理的连贯性上表现优异,是超乎大家的预期的。专家预测,一旦Sora大模型开放,或会直接开始to B的商业化,且将立即引发市场爆发。此应用将不局限于短视频领域,而是在影视和游戏制作领域都会开花。比如,影视/特效综合制作成本最多可降低约八成,在游戏制作的工作流中也可以做到部分覆盖。而在C端的开放,专家则不看好,主要在于C端用户的付费意愿不高。专家预估Sora或将在6月开放测试,GPT- 4.5可能也会在同一时间发布。 
从技术角度看,专家认为算力是实现Sora的一个必要条件视频对于算力的需求要远高于文字,但并非全部。“边界处理”也是一个关键的技术点,“它其实是一个扩图的概念,就是我看到一帧画面,在我所见的这块范围以外,如果我把画幅再扩充一倍,我去生成一些东西填充在这些扩充的地方,它是这样一个逻辑。所以这个东西做好的话,在镜头运用上面就可以做得更好一些。”
专家认为,算力资源的瓶颈对国内大模型公司并非是最重要的难点,主要在于国内大模型厂商缺乏对GPT-4技术实现的了解,另外基础模型的后续经济价值不确定性导致头部玩家开始将研发的投入转向为小模型和垂直应用,可能会导致差距进一步拉大。专家观察到去年大家都还在如火如荼地“卷”大模型,但是今年这一情况有所改变,专家认为这主要是因为“很难在大模型上面有突破立马就变成经济效益”,很多公司都还在解决GPT-3.5从烧钱到商业化的问题,更何谈GPT-4。
专家指出,国内大模型公司有两种发展路径,一种是追求AGI的理想主义公司(和OpenAI类似),另一种是以应用和商业化为导向的务实公司(做细分场景的垂直应用)。在讨论国产AI算力卡的使用前景时,目前国产卡足以满足市场上针对to B和to G端的小模型和垂直应用的需求。

*本文件所用信息均来自参与高临咨询访谈的专家。高临咨询并未另行验证,不保证信息的准确性。本文件所包含的信息仅供参考,不具有任何形式的商业建议,对投资决策不具有影响力。






欢迎添加“ThirdBridge小助手“,
加入“高临BIBD“投资人专属社群。





高临咨询:
高临咨询是行业领先的全球投资调研公司。我们为全球顶尖的投资者和商业领袖提供综合性投研解决方案,助力其做出更明智、更快速的投资决策。高临论坛是全球唯一一家提供优质综合性解决方案的投资调研公司——即囊括了公正且完全独立的专家访问洞察内容,与全球化的专家社区相结合的产品与服务。我们全球超过1300名的员工为客户提供24/7的全天候服务。我们遍布全球八个主要城市, 服务于全球1000余家金融机构、公募及私募股权基金、管理咨询公司及大型企业。

ThirdBridge
高临咨询,即指高临咨询全球集团,系行业领先的全球投资调研公司,为全球1000余家顶尖的金融机构、公募及私募股权基金、管理咨询公司及大型企业汇集全球各个产业的专业洞察,助力其产业研究并做出更好的投资决策。
 最新文章