“生成的人物一转身就变成老外,怎么解决呢?”
“没有办法,10s中动作大的,人物一致性有问题,只能抽卡,多刷几个,选择一个变化不大的。”
在一个以Ruanway学院为主题的群中,不断有各种针对AI视频生成的问题产生,而群内有AI视频生成使用经验的,则也在积极分享自己的使用方法论,并解答相关问题。
这样的AI视频生成相关的群聊并不在少数,且每个群都相当活跃,大部分用户对AI视频生成工具都保持了相当高的兴趣,并在各种平台上分享自己基于AI视频生成工具所创造出的视频内容。
国内用户积极对AI视频生成工具探索和使用的背后,是今年2月份Sora的发布,作为行业发展风向标,彻底引爆了国内AI视频大模型生成赛道。
3月字节跳动旗下剪映Dreamina(即梦)开放内测;4月,AI企业生数科技发布号称首个国产自研视频生成大模型Vidu;6月,快手可灵AI正式开放内测。
7月,商汤推出最新AI视频模型 Vimi,阿里达摩院也发布AI视频创作平台“寻光”,爱诗科技则发布PixVerse V2,快手可灵宣布基础模型再次升级,并全面开放内测,而智谱AI也宣布AI生成视频模型清影(Ying)正式上线智谱清言。
同时,这些AI视频大模型生成工具大部分都已经向公众开放使用。7月30日,生数科技的AI视频大模型Vidu也正式面向全球公众开放使用。
历经大半年,国内大模型赛道终于进入Sora时刻。从AI跳舞、火柴人,到5秒~16秒的高质量视频生成,AI视频大模型的生成能力整体都迈入了下一个阶段。
不过,相比于至今仍未开放的Sora,中国的AI视频大模型已然开启加速模式。在技术能力不断迭代升级的同时,还在持续进行技术应用和商业化落地探索。
事实上,相比于ChatGPT等聊天机器人,AI视频生成大模型作为一个具有工具属性的产品,天然就具备商业化变现能力,现阶段开放给公众使用的AI视频生成工具也皆采用付费模式。
如智谱清影上线的定价策略是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。
不过,当前AI视频生成赛道的商业化仍处于非常早期阶段。
“说实话,我们也不知道未来商业策略会是什么样,或什么形式最好,目前所谓的收费策略更多是一种早期尝试,试试看市场和用户反馈,后面会及时调整。”智谱AI CEO张鹏如此说道。
AIGC智能创意平台筷子科技创始人兼CEO陈万锋也表示:“目前C端用户基于AI视频大模型平台开发出的视频应用指向型不强,这些平台也并不知道C端用户将会如何使用这些视频。”
从技术的迭代更新,到探寻技术的应用和商业化变现,国内AI视频生成赛道玩家们无疑是在加足马力狂奔。但从当前行业现状来说,却也仍存在诸多挑战。
01
AI视频军备竞赛,都在“卷”什么
用AI生成视频,并不是新物种,只不过此前AI视频生成的时长一直卡在2s-4s,且整体视频生成效果体验并不足够令人惊艳。
此前AI视频生成的技术路线主要有2大类:
一类是Diffusion Model(扩散模型技术路线),主要玩家包括Runway、Pika Labs等。
一类是基于Transformer架构的大语言模型生成视频技术路线。
去年12月底,谷歌发布了基于大语言模型的生成式AI视频模型VideoPoet,这在当时被视为生成视频领域中,扩散模型之外的另外一种解法和出路。
Vidu效果
生数科技此次Vidu开放文生视频、图生视频两个功能,提供4s和8s两种时长选择,分辨率最高达1080P。在速度上,生成一段4秒片段的实测推理速度只需30秒。
爱诗科技的PixVerse V2,可支持生成单个时长8s的片段,且支持一键生成1-5段连续的视频内容,片段之间也会自动保持主体形象、画面风格和场景元素的一致性。
智谱AI的智谱清影可生成6秒的视频,时间只要30秒左右,清晰度可达1440x960(3:2)。
快手可灵生成的视频时长在5s,但其有将视频时长延长的功能,可以将视频时长延长至10s,但在生成视频的速度上,却相对较慢,往往需要2-3分钟时间。
从技术的积累上来看,虽然都在布局DiT架构,但国内AI视频生成企业还处于追赶阶段,AI视频生成的时长和效果,尚未达到Sora的水平。
张鹏也坦言:“Sora的演示效果不错,我们还是一个初步的阶段性成果,达不到像Sora演示出来那么好、那么长的视频。我们从来都很坦诚承认与OpenAI、和世界顶级水平之间的差距。”
但国产大模型也在坚持用自己的方式追赶OpenAI,比如“怎么把视频生成算力成本降下来,响应速度提升上去,我们在追求技术高度的同时,也同步追求技术的可普及性和成本。”张鹏说。
无疑,技术上国内AI视频大模型赛道玩家还在追赶,但在应用和商业化上却已然走在前列。
02
图生视频成主流,不稳定、一致性仍是问题
智谱AI的文生视频,prompt:一条自由移动的七彩鱼
图片来自:《劈波斩浪》
今年7月13日,陈坤基于快手可灵大模型重新打磨的《山海奇镜之劈波斩浪》正式上线快手平台,19日单日播放量达到了2026.7万,上线十天累计播放量达到了5164.9万,后续荣登德塔文短剧指数榜第一。
在陈坤看来:“半年前,AI影视很难用生动的表演表现复杂叙事,很多的动作场面也需要通过蒙太奇的剪辑来实现,在制作过程中,由于3—4秒的单个镜头时长限制(在当时就是这个时长),整个片子的节奏感会受到影响。”
“就AI影视赛道来看,可灵的能力确实很厉害,既有文生视频,也有图生视频,且其画面中的动作幅度展示都很不错。”陈坤如此说道,“不过,每家AI视频生成工具都有自己的特点,比如Runway,它的Gen3镜头偏电影感,尽管之前只有文生视频功能,但很多创作者也很喜欢用。现在它也推出了图生视频功能”
作为一个资深玩家,洋芋酱AIgen也认为:“目前最好用的是可灵、luma 和Runway。”另一位影视从业者琪琪(化名)则表示,Sora的整体效果应该最好,但其并未开放。
不过,在实际的体验过程中,虽然现阶段相比于半年前在视频时长和效果上有了质的飞跃,但仍存在画面人物变形、画面不稳定以及前后不一致性等问题。
总结下来,从业者在使用AI视频时,主要有5大痛点:包括人物一致性,场景一致性,人物表演,动作交互,运动幅度等。
“由于大模型技术并不完善,在视频生成过程中画面不可避免的产生畸变。”陈坤称。
光锥智能测试图生视频效果
对此,行业从业者就会通过不停“抽卡”(让AI不断自主随机生成相关画面)的方式,最终得到一个相对满意的效果画面。
“即便我们用可灵,在一个火神和水神打架的镜头上,还‘抽卡’不下100次,但也并未抽到我特别满意的镜头,后来实际用的画面其实也是带了一定畸变的。”陈坤说道。
从现阶段的技术手段来看,短期内可能无法解决这一问题。张鹏认为:“最简单的可控,就是我说什么模型做什么,而想要实现这一可控,强烈依赖于模型能不能够理解这个内容,而这也是多模态大模型发展的初衷。”
用发展中的技术去解决发展中的问题,将是AI视频大模型未来发展迭代升级的关键。“内容生成,尤其是视频内容生成,绝大部分情况下还是由‘人用语言描述’的方式来控制。从自然语言到视频生成,这才是真正的可控,更高层面的可控,这是技术层面的事情。”张鹏如此说道。
现阶段AI视频大模型技术仍处于比较早期阶段,并未有任何一家AI视频生成工具爬到了山顶。而在各家攀登山顶的过程中,生态体系的建设以及商业化变现也成为关键。
03
黄金赛道的起点
纯技术路线发展的角度来看,从单模态,到多模态,最终的目标是达成AGI。但将AI进行产业化落地应用,与技术升级迭代是两码事。
现阶段,国内众多大模型公司的技术追赶已经过了一个阶段,将会把更多的精力聚焦在落地和应用上,通过与场景的结合,数据的反馈,再推进底层技术迭代升级。
像抖音、快手这种已经行业头部视频平台,其可以依托自身海量的用户,通过提供AI视频生成工具,让用户通过这一工具创作相关内容,丰富自己视频生态体系。
“大厂不需要卖工具,而是通过用户进行商业化变现。”陈万锋如此说道,“C端为应用付费模式(对创业公司来讲)在国内并不现实,未来或许只有巨头才有机会,因为其用户数量庞大。”
来源:图片来源于网络,如有侵权请联系删除。
联系我们
与主编交流、沟通请添加微信:cishicike000
商务合作请添加微信:GZZN2019
转载开白请留言或添加微信:GZZN2019
※添加时请备注公司+姓名+来意
「往期精彩推荐」
财报:
浪潮|九号公司|百度|美团|特斯拉|拼多多转型|阿里巴巴|36氪|达达集团|Salesforce|英伟达|微博|苹果|奈飞|有赞科技
招股书:
蕉下IPO|喜马拉雅IPO|网易云音乐IPO|奈雪IPO|汇通达IPO|KK集团招股书|商汤IPO|百度二次上市|嘀嗒出行IPO|OYO酒店IPO|雍和医疗IPO|途虎养车IPO|柠萌影业IPO|斗鱼直播IPO
消费:
年货节|东方甄选|拼多多|短剧行业|第15个双十一|年轻人囤金大战|瑞幸|茶百道|出境游|情绪消费|防晒经济|女性消费|美团外卖|城市新农人|SHEIN|菜鸟驿站|反向旅游|沉浸式国潮|快手电商|抖音电商|露营热|直播电商培训|钟薛高|粉丝经济|流量新大陆|工厂电商化|新消费遇冷|主播工厂|图书电商|直播电商|娱乐直播|清仓直播|B站竖屏封面|互联网保供|中概股“自救”|互联网医疗
特斯拉自动驾驶|途虎养车|宁王“换电”|“蔚小理”学投资|特斯拉“芯片荒”