首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

腾讯版Sora开源，大模型继续狂飙。

科技 2024-12-11 10:26 美国

你好，我是郭震

Sora震撼上线，大模型继续狂飙。

通过公布的一些短视频，来看Sora的视频生成效果。

为了更加容易在公众号展示，把视频尺寸压缩为原来的1/3，大家可以看看效果：

以上5个Sora生成视频，因Sora是闭源的，具体的技术细节，无从得知，只能通过公布的技术框架，了解到：

Sora 可能基于GPT-4 多模态版本为基础模型，引入扩展模型（如扩散模型或基于时序卷积网络的生成模块），以支持视频帧的生成与序列化，通过 Transformer 的时间嵌入机制对视频帧间的时序关系进行建模。

文本到视频的生成通过一个联合的嵌入空间实现，将文本和视频的语义统一对齐。初步生成低分辨率的视频帧序列，使用超分辨率网络提升视频帧质量（如 Real-ESRGAN 模块）。

可能采用扩散去噪模型进行多帧生成的平滑优化，保证连续性。

更多视频生成的技术细节，我们不妨从上周发布的腾讯版Sora来一探究竟，腾讯开源了视频生成的代码，部署在下面两个平台：

同时也发布了技术report：

还能通过PC在线免费体验：

腾讯视频模型称为HunyuanVideo，简称混元视频模型。

根据官方介绍，模型拥有130亿参数，是目前开源领域内参数规模最大的文本生成视频模型。

先看腾讯版Sora生成的几个视频，同样为了兼容公众号文章，视频尺寸压缩为1/3：

因视频已被压缩，抛开清晰度，你能发现：Sora生成的5条视频，腾讯混元生成的这5条视频，有什么区别吗？

衡量文生视频好坏，最重要的三个核心指标是什么？如下所示：

最重要的指标，物理一致性，也就是视频动作是否符合真实物理世界，如重力效果；

第二，场景一致性，帧间是否连续，如布局、光线；

第三，视频是否准确传达了输入文本的核心语义。

下面我亲自实践下，腾讯混元视频模型效果，进入网站，输入这些文字：

中国古代盛唐的江南豫章美景：落霞与孤鹜齐飞，秋水共长天一色

然后点击右下角的按钮，就进入视频生成阶段：

步骤可以说是非常简单，做到了一句话生成视频。提示预计5分钟，实际大概2分钟左右就出来下面视频：

为了展示在公众号里，同样尺寸压缩为1/3后展示：

根据腾讯混元视频模型技术Report，混元计算资源远远小于闭源的Sora模型：

腾讯混元视频模型，目前在开源里面得分最高：

混元模型架构如下：

模型在时空压缩的潜在空间中训练，该空间通过因果3D VAE压缩。

文本提示通过大语言模型编码，并作为条件使用。

以高斯噪声和条件为输入，模型生成输出潜变量，并通过3D VAE解码器解码为图像或视频。

3D VAE压缩组件是核心技术之一，其架构如下所示：

上图中间小块，即为压缩后隐式表达。

另一个核心是文本编码组件：如下图右侧所示，腾讯提出了预训练多模态编码方法：

下面详细介绍了MLLM优势，包括：对齐能力强，图片细节处理和复杂推理强，指令跟随能力更强：

训练阶段，模型不基于预训练，而是完全从零开始训。损失函数另外引入了感知损失和对抗损失。训练策略是课程学习策略，从低到高分辨率：

推理阶段主要challenge，单GPU内存会爆。处理方法：采用时空平铺策略，将输入视频在空间和时间维度上分割成重叠的平铺块。每个平铺块分别进行编码/解码，输出结果再拼接在一起：

关于混元视频模型的scaling laws，会在接下来研究：

论文给出了更多生成视频图形展示：

更多有趣的应用，姿势跟随对齐：

多姿势和表情对齐：

总结

腾讯混元视频模型，技术创新还是蛮多的，并且代码开源了，这会活跃社区，技术贡献会被进一步放大，期望越来越好！

想要下载混元39页论文的，在下面我的公众号后台回复：混元

我的AI技术团队，正在招募志同道合的小伙伴，欢迎加入：

如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个⭐️，这样以后就不会错过我的AI教程。谢谢你看我的文章，我们下篇再见！

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

最新文章

自己电脑搭建AI大模型详细教程，支持通义千问、Llama3、接口调用等。

彻底爆了！阿里再次拿下第一！

腾讯版Sora开源，大模型继续狂飙。

天工AI彩页编辑器，让我体验了一把0帧起手

2024年中国AI初创公司，前30强榜单发布。

字节再送神助攻，大模型继续狂飙。

2024年国产大模型最强前10榜单发布。

团队准备解散了。

被字节起诉的田某，拿下今年AI最佳论文奖，戏剧拉满！附论文分析。。。

2024年值得去的50家互联网公司名单。。。

双非计算机硕士，投了109份简历，目前2个offer。。。

字节要求攻击大模型的实习生赔偿800万。。。

最强代码生成大模型前10榜单，国产占据2席。。。

大模型算法岗工资都是4开头了吗！。。。

国内12家主流大模型，谁是地表最强？亲测后发现是它！。。。

985计算机硕士，拿了10个offer。。。

字节2024年不同岗位的薪资表，差别蛮大。。。

终于可以这样在线刷题、在线编程了，好用到爆！。。。

文字转图表，这个AI工具秒杀PPT。。。

字节不同职级薪资待遇一览表。。。

他偷瞄的AI神器，竟是百度网盘的隐藏功能。。。

AI“底裤“被扒，百度文库上榜。。。

值得去的16家IT公司及待遇（西安篇）。。。

现在大专生年薪都35万了吗！。。。

飞行员薪资曝光，程序员看完后傻眼了。。。

值得去的20家国企名单（北京篇）。。。

值得去的15家IT公司及待遇（苏州篇）。。。

爆了！这个AI 应用开发。。。

值得去的25家IT公司及薪资（成都篇）。。。

值得去的20家央国企名单。。。

清华硕士8面字节，最后被拒。。。

爆了！阿里再次第一。。。

快手不同职级薪资待遇一览表。。。

程序员炒股亏了48万。。。

比亚迪在越南员工的薪资曝光。。。

值得去的20家IT公司及薪资（杭州篇）。。。

他19天副业收入过千。。。

拼多多不同职级薪资待遇一览表。。。

80w起！零成本快速入门大模型指南

来了！GPT4.0接入个人微信！！

全球顶尖AI人工智能大集合：ChatGPT、Midjourney、Suno、Luma等等

2024年民企前35强榜单一览表。。。

美团不同职级薪资待遇一览表。。。

纽约街头偶遇马云。。。

值得去的20家IT公司及薪资待遇（广州篇）

一条短视频赚了2154元（附教程）。。。

华为不同职级薪资待遇一览表。。。

值得去的30家IT公司（深圳篇）。。。

哇，OpenAI又一重磅功能来袭。。。

百度不同职级薪资一览表

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉