首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

国产AI惊艳全球！Vidu 1.5开启视觉模型「上下文时代」

文摘 2024-11-18 17:08 贵州

点击蓝字关注我吧！

国产AI惊艳全球！Vidu 1.5开启视觉模型「上下文时代」

当人们还在为文字生成AI的突破欢呼时，中国视频生成模型再一次站上了全球创新的舞台！生数科技最新推出的 Vidu 1.5，不仅是世界首个支持多主体一致性的多模态模型，还用不可思议的表现震撼了大模型圈。

30秒生成大片，多主体一致性难题被攻克！

试想一下，只需上传几张参考图，AI就能自动生成场景、人、物完美融合的视频。这并不是科幻场景，而是 Vidu 1.5 带来的全新体验。

从「上传素材」到「见证奇迹」，Vidu 1.5 彻底颠覆了传统视频生成技术。以往，生成一个短视频可能需要耗费数小时甚至几天，而 Vidu 仅需 30秒 就能完成。外国网友纷纷惊呼：“这才是最稳定的视频生成模型！” 更有评论直接称生数科技为「游戏规则的改变者」。

“上传几张照片，就能生成一致性超高的视频，AI也太懂我了吧！”
——来自网友评论区的真实反馈

技术突破：如何做到「多主体一致性」？

1. 单主体100%精准控制

传统的视频生成模型，通常在复杂场景下会失真。尤其在侧面、背面等视角变化中，模型「脑补」的画面常让人哭笑不得。而 Vidu 通过深度训练，能够保证单主体在任何角度下的高度一致。

上传几张不同角度的图片，「」，结果如何？

2. 多主体一致性与互动

解决单主体一致性已属不易，多主体间的交互则是另一道难题。例如，让「穿着粉色裙子的莱昂纳多骑自行车在沙滩上」这样的复杂任务，以往模型容易产生混乱或细节缺失，而 Vidu 轻松实现了主体与场景的完美融合。

3. 面部特征与表情自然连贯

生成真实感强的人物表情一直是视频模型的痛点。表情僵硬、五官失真常让生成内容看起来「AI味」十足。而 Vidu 在特写镜头中，表情的变化流畅自然，呈现出电影级质感。

4. 「多图参考」功能：多模态革命的起点

上传不同图片的角色、道具和场景，AI能够精准理解每一部分并生成连贯视频。例如，输入一张宫殿图片和一张手机照片，生成的画面仿佛置身魔幻大片。

为何Vidu被称为「LoRA终结者」？

传统的一致性生成通常需要依赖 LoRA（Low-Rank Adaptation）微调方案。这需要大量相似素材进行训练，耗费时间和成本。然而，Vidu 则完全跳过了这个繁琐步骤，仅用 三张图 就能生成高一致性视频。

LoRA的局限性

高成本：训练过程需要20-100段视频，耗时数小时甚至更久。
容易过拟合：模型生成动态表情或大动作时，常表现出僵硬、不自然。

Vidu的优势

无微调大一统架构：基于通用模型能力，无需单点微调即可完成多图生成。
上下文学习能力：通过视觉上下文扩展，Vidu 已展现出智能涌现效应。

视觉智能的涌现，AGI更进一步

语言模型的突破让人看到了通往通用人工智能（AGI）的曙光，而视觉模型的智能涌现则进一步证明了这种可能性。

上下文学习：视觉AI的核心能力

Vidu 的「上下文学习」能力类似于大语言模型（LLM），能够在多图输入中理解图像间的关联性，从而生成连贯且高度一致的输出。这标志着视觉模型从简单生成工具迈向更高智能。

智能涌现：从「理解」到「记忆」

与早期视频生成模型不同，Vidu 已具备在生成过程中融入记忆的能力。这种突破意味着视觉模型正在从单一任务的工具，向具有通用认知能力的智能体转变。

国产模型引领AI新潮流

Vidu 1.5 的推出不仅展示了国产AI在视频生成领域的技术实力，也为多模态模型的发展树立了新标杆。从 上下文学习 到 智能涌现，它正在将我们引向一个以视觉为核心的AGI新时代。

未来，Vidu 能否助推视觉模型全面迈向更高水平？也许在不远的将来，我们每个人都可以手握 AI「电影制作机」，用几张图轻松制作自己的大片！

阅读到这里，你是否也想体验一把Vidu的神奇？在评论区写下你的创意，说不定下一个爆款视频就来自你哦！

体验地址：https://www.vidu.studio/zh/create/character2video

推荐最新最前沿最好用的AI工具~写新AixNew

最新文章

AI与数字人结合，魔珐有光推动电商直播革命！

白日梦AI更新，写实风3.0，可以把作品导入剪映草稿！

实测：AI音乐工具添新秀，多模态音乐生成大模型！

AI视频翻译工具，一键转换多国语言！

可灵AI连放大招，AI模特来袭，可以转成视频！

AIGC指令教程火热上线！粉丝福利，免费领取！

盘它！国产AI换脸神器来了！有手机即可！

Viggle AI：角色替换，几分钟生成爆款视频！

抠图、扩图、做海报，美间AI：设计师的摸鱼神器！

年末盘点：2024年比较突出的AI视频工具！

8款 AI 换脸神器，收藏起来，但请勿乱用！

可灵 1.6上线：图生视频的绝对王者！

实测：白日梦AI新模型，5分钟写故事，2分钟生成视频

腾讯“混元AI文生视频”上线，申请秒通过！

PIKA 2.0：融合人物、场景或物品的素材生成AI视频！

即梦AI无水印视频下载教程来了，无需会员！（低调使用哦~）

超简单：用AI写歌，真挺简单的！

阿里出品的AI电商神器，人人都是设计师！

海螺AI：语音克隆，不再那么难！

突发：Midjourney 官方推出了了中文版文生图工具！

官方下场：广电总局要求规范AI“魔改”短视频,你怎么看？

静态图片不够吸引人？绘蛙AI让你的模特动起来！

设计不求人，用好这个AI工具，一人顶一个团队。

Google DeepMind 发布 Genie 2：单张图生成无限 3D 世界，未来游戏体验再升级

白嫖福利来了，注册即可免费领「有言AI」半个月会员+1500积分！

海螺AI新神器：I2V-01-Live上线！让你的画作“动”起来！

即梦AI2.1灰度测试，中文真的是中国文生图大模型唯一的突破口了

“收费后”！这个AI视频工具还有多少人在用？

视频风格转换、AI换脸、照片舞蹈，收藏备用！

P视频你见过吗？Google出品，让视频像Photoshop一样可操作！

可灵AI试衣+模特对口型，电商新赛道！

科技感满满的3D数字人平台，有免费版！

AI电商营销新突破！万相营造让创意瞬间成真，商家必看！

AI设计，抠图，扩图，无损放大，海报，智能消除，全在这里了！

AI视频界的新秀！跃问视频来了，创作力拉满！

AI变现新机遇：小白掘金之路，操作！简单

AI音乐进化论：Suno V4让创作不再是难事

AI视频创作神器！5分钟带你玩转3D角色和动漫效果

即梦AI让静态照片秒变‘会说话’视频！

我用AI制作民间恐怖故事视频，把我吓坏了，手机电脑都可以用！

国产AI惊艳全球！Vidu 1.5开启视觉模型「上下文时代」

AI电商工具，别人都收费了，只有它还免费！

“AI配音神器”来袭！5秒钟让你的文字变成专业配音，新用户5W字符额度。

一句话就能P图？AI做到了！

从零到一：智谱清流如何帮助企业快速构建AI应用？

即梦AI S2.0上线实测：速度快、效果稳、价格美，视频创作新风潮来啦！

让设计师瞬间破防的AI工具！可以直接生成海报！

应粉丝要求，安排AI克隆工具，众多明星声音！（附教程）

AI毒液特效席卷小红书，让你的朋友圈全员变毒液！AI特效越玩越野了！

提升电商销量的秘密武器：绘蛙AI消除如何让你的产品更吸引人？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉