易观分析研究合伙人陈晨认为,Sora没有对外开放主要基于几方面原因:一是考虑到文生视频技术是否会被滥用以及由此引发的安全性问题,OpenAI也许还需要进行一系列的安全性测试与优化调整;二是出于商业策略的考量,之前GPT在逐步开放之前也经过了4-6个月的内测,这可能都是由于OpenAI需要对模型实际运行的成本问题做前期评估。目前ChatGPT的运营成本已经非常高了,如果再加上Sora,成本恐怕会提升一个量级,所以OpenAI需要在产品开放前制定好相应的商业化路线。
目前国内很多企业都在相继布局视频大模型,主要分为三类:第一类是传统大厂,如字节跳动在视频领域布局已久,此前发布了高清文生视频模型MagicVideo-V2,此外像阿里云、腾讯、百度、讯飞等,除了在通用技术上继续向多模态大模型发力之外,也在面向行业开发一些应用于垂直领域的大模型。第二类是专门做视觉分析的厂商,比如海康威视等,已经开始投入到视频大模型的研发中。第三类包括一些专注内容开发、创意营销的厂商,比如昆仑万维、万兴科技等也研发了自己的视频大模型。
陈晨表示,“从生成效果看,Vidu对语义的理解,视频的时长、质量、一致性等方面在国内文生视频领域已经做到了领先,另外Vidu在技术路线上和Sora类似,都采用单一模型端到端的生成方式,这也是视频流畅度和视觉表现看起来比较好的原因。”
但需注意的是,与Sora相比,目前Vidu的时长、画面元素的丰富度、细节表现方面仍然有差距。不过,Vidu是一个阶段性的产物,模型能力的突破只是时间问题。至少Sora到现在还没有开放,原因可能是对实际任务的处理能力仍需要融合,以及资源、商业模式等多方面的问题。从这个角度上看,比起大语言模型,国内做视觉模型的起步是比较早的,技术和经验都有较深的积累,需要的是发挥国内产业链协同方面的优势,能够将多模态的能力落到B端和C端丰富的应用场景当中去。
对于国内AI企业寄希望于通过多模态实现弯道超车的问题,陈晨对记者表示,视频大模型在技术上的突破必定加速了AGI的进程,但AGI的关键还在于是否能自发地处理无限多任务,以及是否具备与人类一致的认知架构。此外,最近针对Sora也出现了不同的声音,有一部分专家并不认为Sora是真正可以通往AGI的道路。不过现在相对独立的技术路线在未来未必不会出现融合的情况,创造出真正智能且灵活可控的AGI模型。
至于到底谁先谁后,以现在的模型迭代速度来看,谈谁超越谁其实都是暂时性的,AI的发展不是此消彼长,一定会是共同进步的结果。
文章摘录:第一财经•04-28 作者:吕倩 责编:李娜 ;
文链接:https://m.yicai.com/news/102088224.html
商务合作
老没:13262228281(微信同号)
媒体采访
易观分析媒介:ygfxmkt(微信号)
文章转载
Lisa:18874170483(微信同号)