首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

阿里通义万相AI生视频震撼上线！更懂中国风的大模型来了

科技 2024-09-25 17:30 广东

阿里放大招了，通义万相AI视频功能正式开放。5秒的视频，在手机端APP不限次数免费用！连今晚音乐节的MV都是AI直出。试用后我们惊喜地发现，更懂中国风的AI视频，它真的来了。

AI视频国内战场，阿里也下场了。

刚刚，通义万相AI生视频功能上线！

今天下午的阿里云栖大会上，CTO周靖人宣布，官网和App上都可以立刻试用了。

比起国外爆火的Sora、Gen-3 Alpha，通义万相是更能听懂中国话，更懂中国风的AI视频模型。

今晚飞天音乐节上的视频「江雪」，就是由通义万相生成的

它能够支持最长5秒视频生成，每秒30帧，分辨率为720P。更惊艳的是，它还能生成与画面匹配的音效。

这背后得到了阿里全自研的视觉大模型加持，并采用了业界领先的核心架构——Diffusion+Transformer。

划重点：手机端App不限次数，完全免费用！PC端，每天登陆送50个灵感值，可生成10次。

要知道，画饼的Sora还不能用，上线的Gen-3 Alpha等都得充值，还有一些仍然处于内测当中。

相比之下，通义万相是免费的，次数无限用，还不是期货，不需要排队！

更懂中国风、中国话

既然已经上线，我们就迫不及待地展开试用了。

在通义万相页面上输入提示「黑发古风女孩，快速转身微笑，国风发髻，纯色高清」，一条5s的视频就火热出炉了。

人物还原，眼神灵动，甚至还配有古香古色的背景音。

无论是缓缓抬起的眼神，还是头发在空中飘动的样子，都美得摄人心魄。

转向镜头的瞬间，就被她的样貌惊呆了。

就连中国传统的建筑风格——楼阁式塔，它也能很好地还原出来。

在白雪皑皑的山间，一座雄伟的中国古典建筑巍然屹立，精致的木雕，仿佛置入仙境一般。

再来看看，通义万相生成的古风男子，非常优秀地描绘了温文尔雅的气质。

古风装扮的男子身着月牙白锦袍，站立在雅致的古典园林中，他的一举一动都透露出温文尔雅的气质。镜头从他的侧脸缓缓推近，展现出他眸光温柔，仿佛能洞察人心，给人以温暖和安慰。周围的景致与他的装束相得益彰，共同构建了一幅如诗如画的古典美男图卷。

从某种意义上讲，通义万相是AI视频模型中，更懂国风的那个。

文生视频

在多次试用通义万相的文生视频能力后，不得不感慨：这款AI产品，实在是太有想象力了！而且，每一个视频，AI都会自动配上BGM。

通过提示词，我们就可以用文字控制画面内容和变化的过程。

晨雾，日出，镜头光晕，清冷风，一个五官精致的年轻中国女子，长长的头发被风吹乱，头发丝飘，散在脸上，穿着夏装，背景海边沙滩

蛛网上挂着透明的水滴，形成了美丽的光斑和折射，通义万相在这个视频中，体现出了对物理光学规律的规律，画面的美感也很动人。

更多无厘头想象的画面，现在都可以变成现实了。无论是在南极大陆上工作的企鹅邮差，还是在米山中间行驶的玉米列车。

而切实地使用过之后，通义万相对概念组合的语义理解、画面的视觉动态、风格泛化能力、国风理元素的呈现，无不给人留下了深刻印象。

听话，想象蝶变现实

可以看出，通义万相的指令遵循能力，着实令人深刻。

一句话总结——它就是「最听话」的AI生视频模型。

无论是画面内容、空间构图、运动过程、运镜方式，它均有良好的支持。

而这个模型还是原生支持中文的长文本提示词，因此相比起国外的模型，更能理解中文的复杂语义理解和概念组合生成能力，能将文字创意精准呈现。

何为一个视频模型的想象力？

如果用公式拆解的话，可以理解为：模型的「想象力」=复杂语义理解+概念组合生成。

无论提示词中的元素多么复杂，通义万相都能准确呈现。

而涉及到多个不同元素时，它也能准确、有机地结合在一起，表现出超强的概念组合能力。

任何不可思议的画面，比如「猫变成少年」、「月球上建基地，遭遇洪水」，我们都可以充分放飞自己的想象力，要什么就有什么。

比如下面这只小兔子，穿着溜冰鞋在冰面上灵巧地滑行。

兔子生日宴上，小伙伴们一起为她庆生。

两位正在月球上搭建基地的宇航员，背后是浩瀚无垠的太空。

要说最惊艳的，便是下面这只黑猫幻化成冷峻少年的视频，一眼动漫成真。

运动，重现物理世界

在所有AI视频中，对运动的体现无疑都是最考验模型功力的一道题。

而通义万相，恰恰有着强大的运动生成能力。

它不仅支持复杂与大幅度的运动生成，还能非常写实地还原真实世界的物理规律。

比如在这个视频中，猎豹在狭窄的峡谷中奔跑，眼睛紧盯着前方的猎物。

猎豹四肢的动作、起伏的背脊、尾巴的甩动方向，都很符合自然规律。峡谷场景的一步步推进也很自然。

而这个滑雪爱好者从雪山上快速下滑的视频，无论是滑雪者四肢的动作、变换的重心，还是飞扬的雪粒、光影的变换，都十分自然，破绽极少。

风格泛化

通义万相的风格泛化能力极强，可以根据风格提示词生成响应的视频画面，带来影视级的画面质感和细节表现。

比如这段3D动画风格视频中，帅气的侠客兔子在森林中身披斗篷前进，质感细腻，达到了大片画质。

而这段勾线动画的视频，将法庭上穿着笔挺律师袍的狐狸律师呈现得活灵活现。

国漫3D风格的视频中，古装少女端坐在烛光中，夜色氤氲，巧笑倩兮。

下面这个视频是CG厚涂风格，描绘了女机械师在未来实验室中调试设备的场景。

音频生成

此外就如上文所言，通义万相还会同时生成声音特效，后者是和视觉内容高度匹配的，这样就实现了音画同步，增强了视听一体的沉浸感。

上传一张在街道上空任意穿梭的飞碟的图片。

生成的视频中，还为飞碟配上了非常赛博的背景音，而且由近及远，给人一种真实的感觉。

这里，再用「一双似喜非喜含情目，态生两靥之愁，娇袭一身之病」复刻一下林黛玉多愁善感的神情。

视频中的女子很好还原了气郁体质，再加上配乐，又多了一分伤感。

灵感扩写

要说通义万相的独特卖点，就是它的灵感扩写能力了。

在文生视频界面上点击「灵感扩写」，就能把简单的提示词扩写成忠于愿意的长提示词，从而大幅提升了生成效果。

比如使用这个prompt「白色狼群在冰川峡谷中穿行，夜晚月圆」，生成的视频是这样的。

仔细听，配音也颇有亮点：悠远、神秘，甚至带着一点凄婉。

点击「灵感扩写」，更长更丰富的prompt就生成了。

根据扩写后的prompt生成的视频，别具一番风味。

图生视频

通义万相的图生视频功能，也令人惊喜。

要知道，虽然图生视频没有文生视频那么难，但对一致性、想象力，要求也是很高的。

我们都会有这样的冲动：看到一张美图之后，忍不住会去想象，它动起来是什么样子？现在，通义万相的图生视频功能，完全能满足我们的愿望了。

先由通义万相生成一张在有年代感的欧美餐厅中，几位顾客就餐的图片。

然后，将其上传，还可以补充一些创意描述。

通义万相生成的视频中，整个画面与原图高度一致，而且想象出一位男子迎面走向女子，和她交谈。

再上传一张梵高大师经典之作「星夜」，并输入创意性描述。

接下来，就能看到这幅画作活灵活现起来了。

小白兔坐在月饼上，周围的花瓣轻轻飘落。

图生视频一下，如梦似幻的场景立刻动了起来。

鲸鱼在空中漂浮的科幻场景，超现实主义的渔夫岛屿，荷塘锦鲤的水墨画，这些场景变成视频后，又达到另一番意境。

全自研视频生成LLM

通义万相AI视频能有如此惊奇的表现，深扒技术背后，竟是阿里团队全自研视觉生成大模型立功。

它在模型框架、训练数据、标注方式和产品设计上，具备了业界领先的生产能力。

值得一提的是，这款全新模型采用了Diffusion+Transformer架构。

Diffusion能够在图像、视频生成任务中，通过逐步图像降噪，让画面显现出来。

另外，Transformer的优势就在于，出色地处理序列数据，并有效地捕捉文本中上下文信息。

与其他模型不同的是，通义万相视觉模型采用了中英文双语标注，能够强化中文长文本理解，而且对中文内容和元素原生支持更好。

也就是说，DiT架构不仅能够处理静态图像，还能处理动态视频，为视觉内容创作带来革命性变革。

这种独特的生成方式，在计算效率上具有很强的优势。

通过逐步降噪来生成最终动画，不仅减少计算量，还提高了生成速度，使得通义万相在短时间内生成高质量视频。

而且，它能够精准构图和布局，从抽象艺术，到精细现实主义的各种风格，完全可以拿捏。

也正是这一架构的灵活性，能够让通义万相应用于多种场景。

不论是电商、广告创意，还是自媒体、影视/动画制作等领域，通义万相能够为创作者提供更多灵感来源。

比如，一辆跑车的宣传视频，在AI笔下，能够瞬间炫酷起来。

影视动画制作中的一些创意场景，AI的想象力更是无限的。

还等什么，无限次数免费续的通义万相，赶快去试用吧。

参考资料：

https://tongyi.aliyun.com/wanxiang/videoCreation

来源：新智元

深圳龙岗智能视听研究院

人工智能 | 超高清

产业创新 | 技术孵化 | 成果转化

http://mp.weixin.qq.com/s?__biz=MzUyMzY3NDA5Nw==&mid=2247508246&idx=1&sn=2693bb087ac81caddafc21add11c4a86

智能视听研究院

建设具有国际影响力、华南地区最重要的视听技术创新基地，以及国家自主视听 AVS标准的运营总部和音视频处理和分析芯片设计、生产基地。

最新文章

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

航展附近这场无人机编队表演，竟用了钉钉AI助理的方案

当AI遇上广告，AKOOL 4000万美元营收一夜走红广告营销界

全球首个支持多主体一致性的国产视频模型诞生！视觉模型进入上下文时代

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

VP/XR/AIGC/数智人！VPS 2024上海国际虚拟制作大会亮点速递

马斯克招人策略曝光：9轮面试，底薪低于同行，只招“铁杆特斯拉人”

黄仁勋：AI算力集群会扩展到100万芯片，没有任何物理定律可以阻止

国创中心重点孵化项目：粤港澳超高清数创产业园正式开园！

用XR跨越现实与虚拟，享受《黑神话•悟空》超沉浸天命之路

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

比Flux更强大的文生图模型来了！秘诀是“集百家之长”

粤港澳超高清数创产业园暨超高清公共服务平台正式启动，诚邀您莅临参会！

Claude接管人类电脑编程，OpenAI反击，智能体大战一触即发

粤港澳超高清数创产业园：湾东智芯先锋项目，超高清视频产业应用示范新高地

Claude重磅升级，接管人类电脑12小时，已经学会摸鱼了

手机自动驾驶来了！首款国产AI智能体手机引爆端侧革命

智源发布原生多模态世界模型Emu3，仅靠预测下一个token统一图像文本视频

AVS感知无损压缩团体标准正式发布

研究院荣誉院长高文院士：AI科学家获诺奖，提醒我们重视科学大赛

超高清赋能精品创作，《2023-2024广播电视大屏收视数据报告》权威发布

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

抖音小红书卖爆1万台！Office版人形机器人也来了，破解波士顿动力商业化难题

阿里通义万相AI生视频震撼上线！更懂中国风的大模型来了

央卫视2024秋晚亮点纷呈！艺术与科技“狠活儿”的多样态融合

虚幻引擎+XR+虚拟演播室技术，带你亲临台风现场

苹果史上第一台AI手机诞生，iPhone 16屠版热搜！中文版明年登场，3nm芯片封神

老黄预言成真！Roblox官宣AI秒生3D物体模型，引爆10亿玩家游戏新世界

当视听艺术遇上AI奇缘，一起来见证AIGC赋能下的视听创作新生态

MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”

讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

OpenAI家庭机器人NEO登场，动作丝滑逼近人类！穿着西装的「人」却专做家务

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

Windows、Mac只是装了个夸克，整个电脑都AI了！

5年要烧掉1000亿！中国大模型第一城，诞生了！

法国国礼纪录片已上线，使用AVS3标准进行8K转码播放

中科院院士乔红：人形机器人十大趋势展望

6年“取经”长路，国产游戏大作《黑神话：悟空》幕后分享

惊艳又抽象！巴黎奥运会闭幕式的“高光”回顾

国产AI机器人好超前…弹琴泡茶打咏春，还能撸猫？？

全球首个AI流媒体音乐App来了！中国造的

谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

OpenAI版终结者降临！地表最强机器人Figure 02问世，进宝马狂飙20小时

一个月蹦出4个国产Sora：“拍个手”集体阵亡 | 全方位评测

1194个镜头的原创AI数字资产，还原百年前中国第一次报名参加奥运会的真实历史

深圳争创“五个先锋” 加快打造人工智能先锋城市

清华系Sora全球上线！注册即用不排队，重点支持动漫风，官方：角色一致性下功夫了

AI涌入巴黎奥运，颠覆观赛的中国黑科技大起底

2024年广东超高清视频显示产业全景图谱

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉