首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

实测！生数科技联合清华大学发布Vidu 1.5，AI视频大模型再现划时代功能，主体一致性世界第一。

科技 2024-11-16 18:07 山东

开头忍不住先说一句，Vidu1.5是真TM强！

Sora从2月份昙花一现，就再也没翻起浪花，直接难产了。

生数科技联合清华大学在4月份发布了Vidu 1.0，支持一键生成16秒、1080P分辨率的视频内容，这是国内第一个Sora级别的AI视频大模型。后来才有了清影、可灵这些。

这张代表了Vidu 1.0的视频截图大家应该还有印象吧，画面的丰富度在当时可以说是比Sora演示的差不了多少。

这几天，生数科技联合清华大学发布了Vidu 1.5，Vidu早在9月份就突破了“多主体一致性”的难题，1.5版本又新增了多图参考功能，这方面是真的遥遥领先。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

今天咱们从Vidu 1.5的每个功能来详细了解。

一、图生视频

这个功能不是最惊艳的，因为之前的AI视频平台都有，效果上也差不多，只是给大家实测看下。

很多小白应该也知道了，前段时间很火的那些让老照片动起来的视频就是用类似工具做的。

二、参考生视频

这个功能最能体现出主体一致到底有多么强。

可以添加1-3张图片，根据图片和提示词来生成视频。

先来几段官方DEMO，简单了解下这个功能。

主体一致性真的太强了！！！！

说它这方面遥遥领先，世界第一，真的不过分。

当然，一开始看了DEMO我也是不信的，我必须得实测下。

而且我觉得官方DEMO里的小男孩还是太简单了，得给它上难度，特意用Midjourney生成了一个头发更乱一点的。

再简单裁一下，输入的图片和提示词就是这样。

开始我也没多想，后来才注意到，Vidu是支持中文的。

来看下生成的效果。

人物主体一致性确实是够了，但是怎么跟官方DEMO差这么多？尤其是背景和清晰度上，让我怀疑自己用了盗版的。

发现底部能调清晰度，那再来一条吧。

这才对嘛！这飘逸的小发型，是这个味儿！全方位无死角的帅。

我用的720P，跟官方DEMO还是有点差距，但是我信了，Vidu 1.5的DEMO是真的，不用打折扣。

极速模式大概10秒就能生成4秒的视频，720P大概要3分钟。

三、文生视频

这个功能大家已经很熟悉了，不放官方DEMO了，来个我实测的视频看看，还是720P的。

新注册有免费积分，这些功能都可以体验下。粗略算了下，订阅的话，一个720P的视频大概2块钱，但我更关心API的价格，等我联系上他们官方的人再来汇报。

项目链接

https://www.dongaigc.com/p/tools/vidu-1

寻找更多开源项目，就到懂AI（dongai.ai）

软件开发，AI项目快速落地，专业团队高质量交付。

关注「开源AI项目落地」公众号

与AI时代更靠近一点

关注「AGI光年」公众号

获取每日最新资讯

关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地

分享有价值的开源项目，并且致力于Ai项目的落地。

最新文章

11.6k星星！Facebook开源的儿童手绘AI转动画项目，输出稳定，儿童艺术创作赛道可落地。

阿里开源的声音克隆TTS重磅升级，CosyVoice2支持流式输出，更加流畅自然。

4k星星！一个容器化的向量检索RAG系统，支持多模态输入、混合搜索和知识图谱构建。

5.5k星星！开源AI漫画翻译神器，有些漫画永远都不会被翻译，因此这个项目诞生了。

这个AI设计软件厉害了，只要一张产品图就能生成专业的电商主图，爆款产品这不就来了嘛。

11.7k星星！Sora发布了，但别忘了还有个北大开源的Open-Sora，AI视频未来之星一直在更新迭代。

GPT-4o语音交互的开源实现，一个端到端可以直接理解音频的多模态大模型。

超强开源抢先看！新形态数字人，一张照片就能替换掉视频里的说话人，动作表情口型都不变！

这家AI写的营销文案实在是太强了，比自己做的提示词工程省时省力又好用。

好玩！！开源免费AI聊天机器人硬件，0基础手把手教学制作现实AI女友、儿童陪伴玩偶。

一分钟了解OpenAI发布会（1/12）-你会订阅GPT200美金一个月的会员吗？

3.7k星星，开源论文翻译系统，能自动处理公式图表，终于再也不用开翻译会员了。

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

这个工具厉害了！一分钟能做上百个sku主图，作为设计师的你还在加班吗？

7.3k星星！AI开源视频自动添加字幕和配音，Netflix级准确度。

GPTs进阶版已开源！通过大模型来访问并操作浏览器，网站验证码都能自动填写。

18.5k星星！一个会浏览网页收集信息的开源AI编程助手，还能把复杂指令拆分成多步骤完成。

蚂蚁集团开源首个音频驱动图片半身数字人项目，肢体动作和手型优化太强了！

一个开源的markdown转图片工具，用AI快速输出精品海报，目前AI海报最好的落地路径。

用了酷家乐旗下的这款AI设计软件，设计师再也不用担心加班。

阿里发布GPT-o1的开源实现，用AI解决没有标准答案的复杂问题。

千万粉丝科技自媒体大V何同学，抄袭的原来就是这个开源程序。

港大浙大联合开源交互式AI图片编辑系统，平替PS超贵的AI功能，简单到看一眼就会用。

强大！一个开源多智能体管理框架，灵活处理复杂的多轮对话，真正实现AI全能王。

15.5k星星！开源AI搜索引擎，轻松本地部署替代传统搜索引擎。

这个AI海报设计软件解决了我的刚需，今年圣诞元旦春节做海报都不愁了！

实测！生数科技联合清华大学发布Vidu 1.5，AI视频大模型再现划时代功能，主体一致性世界第一。

微软开源多智能体角色模拟，让AI头脑风暴成为现实，从此你的群聊里就有了社会上各行各业的人。

开源实时语音交互数字人，支持声音克隆和自定义形象，首包延迟低至3秒。

爆火开源推荐！基于Next.js的开源AI聊天机器人模板，一键定制部署AI对话软件。

开源人像视频编辑工具，3D高斯的完美应用，功能效果值得落地一个AI视频编辑软件。

这个开源项目落地场景非常多！基于Flux的实时AI绘画，毫秒级生成角色一致性图片。

Claude Artifacts的开源实现，Llama3驱动的AI程序员，瞬间做一个软件还能实时渲染。

开源本地实时语音AI，三分钟看懂下一代AI语音助手的实时多模态交互

5.7k星星！开源文档解析黑马项目，快速解析文档导出所需格式

本周爆火开源！无代码数据爬虫，2分钟训练机器人模拟人类自动爬取web数据

这个专注电商行业的AI设计软件太强了！

我们打造了一个国内信息最全的AI指南网站，让你找到最适合自己的AI开源项目。

字节开源超逼真3D数字人，15分钟训练一个高质量数字人形象。

字节发布音频驱动口型数字人，无需训练，效果完美平替Heygen。

身边的小伙伴都在用，你不会是最后一个知道的吧？

全方位实测！腾讯最新推出会思考的知识库ima，它的AI搜索会产出最优质的内容。

微软开源纯视觉屏幕解析工具，GUI时代真的来了！

4.3k星星，开源版OCR神器，支持复杂文档布局和表格，利用GPT-4o-mini识别准确度超高

本月最强开源发布！Genmo开源AI视频模型，100亿参数，效果秒杀RunWay和Luna！

AI在电商行业的应用典范，美间真的在AI设计上用心了。

英伟达最新提出ComfyGen，利用大模型自动生成Comfyui工作流，Comfyui再无难度

复旦团队开源Hallo2，音频驱动图片生成4K分辨率小时级肖像视频，对比第一代提升巨大

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

这个AI工具在双十一发挥大用途，设计师可以抛弃PS了。

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉