来源:雷科技AI硬件组 | 编辑:失魂引
Sora来了,但没有完全来。在12天连续发布会活动的第三天,OpenAI正式面向大众发布了AI视频大模型Sora Turbo,最高支持生成20秒视频,仅为初次公布Sora时宣传时长的三分之一。更离谱的是,不是任何用户都可以立即体验Sora Turbo,该应用仍处于小范围测试阶段。在Sora之前,海外已有AI公司开发出了视频大模型,但直到今年2月Sora首次亮相,视频大模型行业才真正进入黄金发展期。然而带动视频大模型快速发展的Sora,却似乎掉队了。不说我们可能较为陌生的海外,仅仅是国内市场,就涌现了不下二十款AI视频大模型,互联网巨头腾讯、阿里巴巴、字节跳动等,更是每一家都推出了AI视频大模型。站在行业的角度,AI视频大模型赋予了大模型理解和重构真实世界的能力,站在用户的角度,AI视频大模型则给了我们发挥想象力的无限可能。与面向泛用场景的大语言模型不同,视频大模型的使用场景相对更加专业,因而现阶段基本需要付费才能随心生成视频。免费用户只能领取系统的积分或每日赠送的次数生成视频,而且可能无法体验部分高阶功能。正因如此,不关注AI大模型的小伙伴可能并不清楚国内有哪些视频大模型。接下来,小雷就盘点六款目前国内知名度较高的AI大模型,并分析其功能特性,或许未来它们就会成为你手中将想法、灵感转化为现实的工具。Sora成了Follower?
国内视频大模型众多,功能和体验也有不小的差异,经过数月时间的提升,大多能够识别人类自然语言,而非依靠限定词生成内容。这是视频大模型的一小步,却是互联网行业的一大步,理解自然语言,才拥有将我们想法或小说中的内容转化成影像的能力。至于视频大模型该怎么选,别急,跟随小雷一起看看互联网巨头们的视频大模型表现如何,或许你的心中就会有答案。1、可灵:行业先行者,体验出众。
训练视频大模型需要大量视频资源,视频平台具备先天优势,Sora发布后仅4个月,快手科技旗下的AI团队就推出了视频大模型可灵,如今更是进化到了1.5版本。就小雷的体验而言,可灵在国内众多视频大模型中,体验足以位列前三。
可灵支持文生视频和图片生成视频(也可以加入文字描述)两种模式,而且可以调整创意想象力和创意相关性。可灵1.5大模型免费用户使用文生视频功能,最高可生成5秒高品质视频(1.5版本不支持生成标准品质视频,1.0版本可生成10秒标准品质视频),使用图生视频功能,则可以生成最高10秒标准品质或5秒高品质视频,且支持运镜调节。小雷以“宁静的海滩,满月高悬在天空,微风吹动着海边的椰子树,发出哗啦啦的声音,一只小猫咪慵懒地躺在沙滩上,舔舐着前腿上的毛发”为描述语生成了一段视频。具体结果如下,无论是舔舐毛发还是风吹动椰子树,细节丰富程度都非常高,唯一较为明显的漏洞可能在于生成的结果是在白天,而非小雷描述的夜晚。作为国内最早一批AI视频大模型,可灵的表现极为出色,提供的功能选项较为丰富。期待可灵能够尽快推出生成视频更长的版本,达到微短剧的要求,帮助微短剧作者创作视频,降低微短剧的制作成本,进而提升可灵的实用价值。2、即梦:语言解析能力强,可惜缺乏灵动感。
快手推出可灵后,抖音不甘示弱,也推出了视频大模型即梦。除了文生视频和图生视频外,即梦还加入了对口型功能,即导入图片、视频后,再上传文本或录音,即梦便可调整视频。即梦发布时间虽晚一些,但更新迭代速度极快,至今官网已提供视频1.2、视频2.0、视频2.0 Pro三个版本可用。需要注意的是,该大模型注册即送60积分,视频1.2大模型生成4/6/8秒视频分别需要4/6/8积分,视频2.0模型生成5秒钟视频需要5积分,视频2.0 Pro模型生成视频则需要20积分。小雷以相同的描述语,使用即梦视频2.0 Pro模型生成了一段视频,质量也相当不错,小雷描述的场景基本展现了出来。不过这段视频也不算完美,例如猫咪的动作过于单调和僵硬,缺少灵动感,树叶也没有随风而动等。即梦对于自然语言的理解能力,在小雷看来比可灵还要更高一些,描述语中的元素基本具备,但生成的视频质量略逊于可灵。3、混元:功能有待丰富,成长空间较大。
说完了快手、抖音两大短视频巨头,自然也不能落下腾讯公司。腾讯日前推出了混元视频大模型,并在腾讯元宝App和网页端上线。腾讯混元视频大模型现阶段仅支持文生视频,每日可免费生成4次标准品质和2次高品质视频。小雷也使用腾讯混元大模型生成了一段视频,太大的月亮造成了虚假感,猫咪舔舐毛发的动作更是满满的违和感,椰子树距离过远,细节不够丰富。或许是因为诞生时间太短,腾讯混元大模型生成的视频质量欠佳,明显不如可灵和即梦。不过拥有国内互联网巨头腾讯作为后盾,相信经过几次迭代升级后,该大模型生成的视频质量能够媲美可灵和即梦。4、Vidu:功能丰富,运镜自然。
作为北京数生科技与清华大学联合研发的AI视频大模型,Vidu可能没有腾讯、字节跳动那样强大的财力,但大模型的表现毫不逊色。该模型也推出了1.5版本,支持文生视频和图生视频,还支持上传同一主体不同角度的图片,从而生成更具真实感的立体画面。需要注意的是,该大模型免费用户仅能生成720P视频。
在实测中,Vidu生成的视频质量高不下于可灵和即梦,运镜的自然流畅度比可灵还要强一些。细节方面也非常丰富,海水、椰子树、风等元素均有展现,仔细看会发现远处还有身影靠近。唯一的漏洞在于沙滩的质感不足,一般只有刚刚落潮的海滩才会有类似的情况。Vidu的表现已相当不错,开放API,探索商业模式后,大概率可以获得不少投资,Vidu可以利用这笔投资购买芯片和视频资源。拥有足够的视频资源用于训练大模型和算力支持,Vidu才能加快前进的脚步。5、清影:同具清华血脉,与Vidu有差距。
智谱清言的前身是清华大学计算机系知识工程研究室团队,与Vidu算得上同出一门,甚至更具正统性。智谱清言开发的AI视频大模型清影功能极为丰富,支持文生视频和图生视频,其中文生视频可调节视频风格、情感氛围、运镜方式等参数,图生视频则最高支持16秒4K 60帧视频生成,是小雷体验过的视频大模型中,生成视频最长的。然而,清影生成的视频却令小雷大失所望,别的就不说了,我的猫呢???而且画面几乎看不出来这是一段视频,小雷差点以为我生成的是图片。与同出一门的Vidu相比,清影的问题十分明显,对于自然语言的理解能力可能存在问题,有待进一步提升。6、PixVerse:画面唯美,动作却很僵硬。
对于爱诗科技,国内普通网友可能比较陌生,但其创始人王长虎曾担任微软亚洲研究院主管研究员,后续跳槽到字节跳动,先后担任了人工智能技术总监、视觉技术负责人等职位,主导了字节跳动视觉大模型的基础建设工作。爱诗科技的视频大模型PixVerse功能同样丰富,支持特效、风格、比例等元素的设置和调整,还能预设角色,生成视频最长为8秒。不过注册赠送的积分只有90,每日再赠送30积分,生成5秒视频需要30积分,8秒视频则为60积分。从生成的视频来看,PixVerse的特性与其名字一样充满唯美感,画面色调十分讨喜小猫的毛发细节和背后的水面的波纹都很到位。与即梦相同,PixVerse生成视频的问题也出在猫咪身上,小猫的动作过于刻意,反而出现了僵硬感。瑕不掩瑜,PixVerse的表现非常出色,让我们看到了爱诗科技的实力。细节决定成败
数月时间,国内AI企业在视频大模型领域已迈出了从无到有的关键一步,现在正从有到强进发。就小雷的体验而言,可灵、即梦、Vidu、PixVerse均表现不错,并列第一梯队,腾讯混元视频模型位列第二梯队,清影则位列第三梯队。因使用场景、风格要求等细节的不同,视频大模型的输出结果可能会存在一定的差异,小雷的体验不能表现出这些视频大模型的全部实力。即便是表现较好的大模型,在细节方面也存在一定的漏洞,除了上文频频提到的猫咪动作僵硬问题,还有一个非常明显且普遍的情况,即沙滩的沙子不会因为猫咪的动作而流动。AI视频大模型虽在不断升级迭代,并取得了不菲的成果,但细节方面依然有不少进步的空间。AI视频大模型的升级重点围绕自然语言解析能力、画面细节打磨和运镜、时长三大方面,这三大核心因素也决定了AI视频大模型未来能够取得的成果。唯有能够理解人类自然语言,才能真正让每一个人都能利用AI视频大模型尽情释放想象力,画面和运镜的升级可以提高视频质量,时长足够的前提下,AI视频大模型方能成为用户手中创作微短视频的助手。另外,尽管AI视频大模型普遍采用收费方案,但价格过于昂贵,以至于付费用户有限,再加上训练成本和推理成本居高不下,大多数AI视频大模型公司的处境并不乐观。主攻视频生成领域的AI公司,要么与B端客户联合,针对定制场景打造专属版本,要么就要加速升级迭代,满足C端用户的需求,寻找盈利点。近期亚马逊云科技、谷歌、OpenAI等企业相继发布了AI视频大模型,预计明年还会有更多AI公司推出视频大模型,整个行业的竞争将愈发激烈。这些已走在前面的企业,应当尽快利用自身优势创造盈利点,避免在更卷的环境中被淘汰。25年1月7日,CES(国际消费电子展) 2025 即将盛大开幕,雷科技报道团蓄势待发,即将飞赴美国·拉斯维加斯现场全程报道,敬请关注。