智谱AI再放“大招”，30秒将任意文字生成视频

财富 2024-07-26 12:45 浙江

输入一段提示词，选择自己想要的风格，包括卡通3D、黑白、油画、电影感等等，配上清影自带的音乐，就能生成充满想象力的短视频。

撰文｜张贺飞

编辑｜沈菲菲

继文本生成、图像生成后，视频生成也加入到了“内卷”行列。

7月26日的智谱Open Day上，在大模型赛道上动作频频的智谱AI，正式推出视频生成模型CogVideoX，并放出了两个“大招”：

一个是智谱清言打造的视频创作智能体清影，可使用文本或图片生成时长6秒、1440x960清晰度的高精视频。

另一个是智谱清言小程序上线的“让照片动起来”，可以直接在小程序中上传照片，输入提示词生成动态视频。

不同于一些小范围开放或预约才能使用的产品，清影智能体面向所有用户开放，输入一段提示词，选择自己想要的风格，包括卡通3D、黑白、油画、电影感等等，配上清影自带的音乐，就能生成充满想象力的短视频。企业和开发者也可以通过调用API的方式，体验文生视频和图生视频能力。

由此引出了这样一个问题：目前视频生成类产品仍处于“可玩”的阶段，距离商用仍然有不小的鸿沟，智谱AI的进场将产生什么样的影响？

01.

更快更可控的“清影”

在Sora引爆视频生成赛道后，行业内掀起了一场连锁反应，先是Runway、Pika等产品在海外市场走红，国内在4月份以后也陆续曝光了多个文生视频类大模型，几乎每个月都会有新产品上线。

市场层面越来越热闹，体验上却陷入了相似的困局，确切的说是两大绕不过去共性问题：

一是推理速度慢，哪怕只是4秒的视频，也需要10分钟左右才能生成，而且视频越长，生成的速度越慢；

二是可控性差，在限定的语句和限定的训练样本内，可以有不错的效果，一旦“越界”就会出现“群魔乱舞”的情况。

有人将其比作为游戏中的“抽卡”，多试几次才会生成想要的效果。然而一个无法掩盖的事实是，倘若文生视频要尝试25次才能生成一次可用的，每次生成的时间动辄10分钟，意味着想要获得一条几秒中的视频，需要长达四个多小时的时间成本，所谓的“生产力”也就无从谈起。

在智谱清言里试用了“清影”的文生视频和图生视频功能后，我们发现了两个令人惊艳的体验：生成一条6秒的视频，只需要花费30秒左右，推理时间从分钟级被压缩到了秒级；采用“镜头语言+建立场景+细节描述”的提示词公式，一般“抽两三次卡”就能够获得让人满意的视频内容。

以文生视频的场景为例，给“清影”输入“写实描绘，近距离，猎豹卧在地上，身体微微起伏”的指令后，一分钟内就生成了一段“以假乱真”的视频：风吹动草地的背景，猎豹不断晃动的耳朵，随着呼吸起伏的身体，甚至每一根胡须都栩栩如生……几乎可以被误认为是近距离拍摄的视频。

为什么智谱AI可以“跳过”行业内普遍存在的痛点？因为所有的技术问题，都可以通过技术上的创新解决。

隐藏在智谱清言视频创作智能体“清影”背后的，是智谱大模型团队自研打造的视频生成大模型CogVideoX，采用了和Sora一样的DiT结构，可以将文本、时间和空间融合。

通过更好的优化技术，CogVideoX的推理速度较前代模型提升了6倍；为了提升可控性，智谱AI自研了一个端到端视频理解模型，为海量的视频数据生成详细的、贴合内容的描述，以增强模型的文本理解和指令遵循能力，使得生成的视频更符合用户的输入，并能够理解超长复杂prompt指令。

如果说市面上的同类产品还在“可用”上下功夫，创新上“全垒打”的智谱AI已经进入了“好用”的阶段。

直接的例子就是智谱清言同步提供的配乐功能，可以为生成的视频配上音乐，用户需要做的仅仅是发布。无论是没有视频制作基础的小白用户，还是专业的内容创作者，都可以借助“清影”让想象力化为生产力。

02.

Scaling Law再次被验证

每一次看似不寻常的背后，都有其必然性。在同类产品要么不开放使用，要么还处于阿尔法版本的阶段，“清影”之所以成为人人可用的AI视频应用，离不开智谱AI在频生成大模型上的多年深耕。

时间回到2021年初，距离ChatGPT的走红还有近两年时间，诸如Transformer、GPT等名词只是在学术圈讨论时，智谱AI就推出了文生图模型CogView，可以将中文文字生成图像，在MS COCO的评估测试中超过OpenAI的Dall·E，并在2022年推出了CogView2，解决了生成速度慢、清晰度低等问题。

到了2022年，智谱AI在CogView2的基础上研发了视频生成模型CogVideo，可以输入文本生成逼真的视频内容。

彼时外界还沉浸在对话式AI的场景中，视频生成并不是焦点话题，但在前沿的技术圈里，CogVideo已经是炙手可热的“明星”。

比如CogVideo采用的多帧率分层训练策略，提出了一种基于递归插值的方法，即逐步生成与每个子描述相对应的视频片段，并将这些视频片段逐层插值得到最终的视频片段，赋予了CogVideo控制生成过程中变化强度的能力，有助于更好地对齐文本和视频语义，实现了从文本到视频的高效转换。

Meta推出的Make-A-Video、谷歌推出的Phenaki和MAGVIT、微软的女娲DragNUWA以及英伟达Video LDMs等等，不少视频生成模型都引用了CogVideo的策略，并在GitHub上引起了广泛关注。

而在全新升级的CogVideoX上，诸如此类的创新还有很多。比如在内容连贯性方面，智谱AI自研了高效三维变分自编码器结构（3D VAE），将原视频空间压缩至2%大小，配合3D RoPE位置编码模块，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。

也就是说，视频创作智能体“清影”的出现绝非偶然和奇迹，而是智谱AI日拱一卒式创新的必然结果。

大模型行业有一个著名的定律叫Scaling Law，即在不受其他因素制约时，模型的性能和计算量、模型参数量、数据大小呈现幂律关系，增加计算量、模型参数量或数据大小都可能会提升模型的性能。

按照智谱AI官方给出的信息，CogVideoX的训练依托亦庄高性能算力集群，而且合作伙伴华策影视参与了模型共建、另一家合作伙伴bilibili参与了清影的技术研发过程。沿循这样的逻辑，“清影”在生成速度、可控性上超预期的体验，无疑再一次印证了Scaling Law定律的有效性。

甚至可以预见，在Scaling Law的作用下，后续版本的CogVideoX，将拥有更高分辨率、更长时长的视频生成能力。

03.

“多模态是AGI的起点”

一个可能被习惯性忽略的信息在于，智谱AI并没有将“清影”作为独立的产品，而是以智谱清言的智能体上线。

个中原因可以追溯到智谱AI CEO张鹏在ChatGLM大模型发布会上的演讲：“2024年一定是AGI元年，而多模态是AGI的一个起点。如果想要走到AGI这条路上去，只停留在语言的层面不够，要以高度抽象的认知能力为核心，把视觉、听觉等系列模态的认知能力融合起来，才是真正的AGI。”

5月份的ICLR 2024上，智谱大模型团队在主旨演讲环节再次阐述了对AGI技术趋势的判断：“文本是构建大模型的关键基础，下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练，构建真正原生的多模态模型。”

过去一年多时间里，大模型的热度一浪高过一浪，却未能摆脱“缸中大脑”的局限，应用场景十分有限。而大模型想要脱虚向实，想要走进实际的生活和工作中创造价值，必须要长出手脚的执行能力，比如在语言能力外延伸出听觉和视觉的能力，并通过这些能力和物理世界进行无缝连接。

再来审视视频生成大模型CogVideoX和视频创作智能体“清影”，无疑可以得出一些不一样的答案。

CogVideoX的文生视频、图生视频能力，可以看作是对认知能力的拆解，先实现单项能力的突破；以视频创作智能体形态出现的“清影”，可以看作是对不同模型能力的收拢，在原生多模态大模型还不太成熟的情况下，用户可以通过多个智能体的组合，高效且精准地解决现实问题。

可以佐证的是，在智谱AI的大模型矩阵里，已经涵盖具备视觉和智能体能力的GLM-4/4V、推理极速且高性价比的GLM-4-Air、基于文本描述创作图像的CogView-3、超拟人角色定制模型CharacterGLM、擅长中文的向量模型Embedding-2、代码模型CodeGeeX、开源模型GLM-4-9B以及视频生成大模型CogVideoX，客户可以根据不同的需求调用不同大模型，找到最优解。

而在To C应用方面，目前智谱清言上已经有30多万个智能体，包括思维导图、文档助手、日程安排等出色的生产力工具。同时智谱AI还推出了由数十万个AI体组成的多智能体协作系统——清言Flow，不仅限于单一智能体的交互，涉及多轮、多态、多元的对话交互模式，人们仅需通过简洁的自然语言指令，就能处理高度复杂的任务。

做一个总结的话：现阶段距离真正意义上的AGI还有不小的距离，但智谱AI正在用“单项突破，能力聚合”的方式，提前让AGI照进现实，让强大的大模型能力真正用来帮助人们的工作、学习和生活。

04.

写在最后

需要正视的是，目前视频生成大模型对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等，仍存在非常大的提升空间。

在通往AGI的路上，智谱 AI等大模型厂商不应该是孤独的行路者。作为普通用户的我们，也可以是其中的一员，至少可以在智谱清言上用自己的“脑洞”生成有趣的视频，让更多人看到大模型的价值，利用AI提升创作效率的同时，加速多模态大模型不断走向成熟。

往期推荐

“算法票友”搭档“技术博主”，他们说算子开发就像玩游戏打怪

比亚迪王传福对话九牧林孝发，一场火出圈的“科技跨界”

主理人 | 张贺飞（Alter）

前媒体人、公关，现专职科技自媒体

钛媒体、36kr、创业邦、福布斯中国等专栏作者

转载、商务、开白以及读者交流，请联系个人微信「imhefei」

Alter聊科技

探究产业兴衰，专注商业解读。

最新文章

AI-Native的路要怎么走？一群技术“老炮儿”指明了方向

影智科技唐沐：人形是累赘，具身智能并不缺少落地场景

出海风向标：海尔、九牧、比亚迪等国货品牌为何能“反向占领”？

新增市场份额超30%，昇思MindSpore成为AI框架的新选择

“伙伴+华为”，看见千行万业数智化的最优解

数智化赋能龙港中医院，让医疗服务有了“人情味”

“芯片围城”下国产AI要放缓？答案或截然相反

AutoGLM的一小步，人机交互进化的一大步

操作系统加码主动防护：数智化有了“安全底座”

肖特成立140周年：以创新铸就特种玻璃开拓者的传奇！

这条马桶魔性广告，为何让九牧“抢”了双11的流量密码？

全面升级的“新清影”，给AI生成视频带来了哪些新玩法？

从微笑曲线底端崛起，中国县城工厂走向“新质供给”

鲲鹏生态繁荣的“幕后推手”：虹信软件扛起“智改数转”大旗

阿里云上的Salesforce这一年：深耕本地化，释放新价值

拼多多的数字农业三部曲：新技术、新农人、新商路

滴滴企业版“崩了”的教训：企业应该对技术有“敬畏”之心

1.4亿元融资背后，媒体融合进程被按下“加速键”

“特斯拉式”创新，被这家科技卫浴品牌极致演绎

“好房子”的智能化探索，华为和保利为行业做了示范

联合赋能企业网络创新，中企通信和华为加速IPv6+进入“繁花期”

钉钉x昇腾：用AI一体机撬动企业数字资产智能化

再次上演“空间魔法”，方太重新定义水槽洗碗机的能力边界

从“纸面算力”到“好用算力”，超聚变打通AI+“最后一公里”

在成都建“圈”五年，鲲鹏让智能化新风吹遍巴蜀大地

千行万业的智能化转型，需要一场网络供给侧改革

银行核心系统的现代化改造，华为的答案是重塑敏捷和重塑韧性

百年码头遇见数智化：华为和天津港解锁新质生产力

拼多多为何主动“慢”下来进行商家生态治理？

“人手一个贾维斯”的愿望，正在被“视频通话”功能带进现实

智能马桶销量全球第一，为什么是中国九牧？

唤醒手机上的AI，还需要一个物理按键吗？

两分钟“熟读”《国史大纲》，大模型的下一个爆点是“书童”？

详解电商三巨头的运营成本：商家的压力到底来自哪？

千行万业的数智化，将在全闪普惠的土壤上开出新花

“新质互联网”解读：新在哪里，利在何处？

智谱AI再放“大招”，30秒将任意文字生成视频

“算法票友”搭档“技术博主”，他们说算子开发就像玩游戏打怪

比亚迪王传福对话九牧林孝发，一场火出圈的“科技跨界”

麦芒30全新绽放，中国电信勾勒出AI手机的新方向

透过三星Galaxy Z Fold6，看见高效生活的未来图景

中小企业和数智化的距离，只差一块华为IdeaHub

“内卷”的电商江湖：拼服务才有出路

英伟达被“压制”的25年

如何加速AI原生应用进程？华为云开天aPaaS提出新范式

如何占领消费者科技心智？这家中国企业给出标准答案

告别“低水平内卷”，云计算步入“黄金时代”

咖啡价格卷至6块6，这次轮到库迪慌了？

26岁的“天才少年”，带队面壁打通高效大模型之路

价格战迷雾下，大模型创业者只能被动挨打？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉