新智元报道
新智元报道
【新智元导读】全球首个支持多主体一致性的多模态模型,刚刚诞生!Vidu 1.5一上线,全网网友都震惊了:LLM独有的上下文学习优势,视觉模型居然也有了。
左右滑动查看
左右滑动查看
左右滑动查看
地表最强?率先攻克「多主体一致性」难题
由Luma AI生成(左右滑动查看)
单主体100%精准控制
复杂单主体
人物面部特征和动态表情自然一致
多主体一致性,三张图稳定输出
主体+场景:任意地点想做什么就做什么
人物+道具+场景:以任何形象出现在任何场景
双角色主体:次元壁破了!
百日进化,Vidu技术解析
无微调大一统架构
统一问题形式:LLM将所有问题统一为(文本输入,文本输出),Vidu则将所有问题统一为(视觉输入,视觉输出); 统一架构:LLM和Vidu均用单个网络统一建模变长的输入和输出; 压缩即智能:LLM从文本数据的压缩中获取智能,Vidu从视频数据的压缩中获取智能。
三张图,终结LoRA炼丹
简单理解,比如我创作了一只卡通狗的形象,想生成连续一致的视频画面,但模型在预训练过程中并没有学习过该形象,所以需要拿卡通狗的多段视频,让模型进一步训练,让模型认识这只卡通狗长什么样,从而能够生成。
视觉模型,正式进入「上下文时代」
视觉智能涌现,加速AGI到来