首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
Sora试用报告:错误不少,一起找茬
科技
2024-12-12 23:33
北京
文丨天下
Sora来了,Sora的评测也来了!
那OpenAI刚刚发布的的Sora是否和预料的一样好用呢?
2024年2月OpenaAI公开展示视频生成工具Sora,但并没有正式发布,而在OpenAI的第三场发布时,Sora Turbo通过sora.com与网友见面,ChatGPT Plus和Pro付费用户可以使用,前者每月需要20美元/月,后者200美元/月。
输入文本提示或者图片,Sora可以生成多种类型的视频,时长介于10-20秒,分辨率介于480p-1080p。OpenAI还添加了所谓Storyboarding模式,它可以以“时间线”视角生成多段连接在一起的视频,该模式可以让片段之间实现无缝转换。
欢迎来找茬
Sora发布之后试用者很多,挤爆了网站。OpenAI CEO Sam Altman说:“我们明显低估了Sora的需求,还要等一段时间才能让每个人都能访问。我们会尽可能快找到解决方案。”
如果是在物理规律不太适用的环境中,Sora生成的视频不错,比如生成太空动画。如果让Sora生成像照片一样真实或者像电影一样华丽的视频,那它就显得捉襟见肘了。视频中的对象会莫名其妙消失或者出现,很多动作不自然。
也许视频生成真的能带来变革,改变人类的沟通交流方式,其意义和手机摄像头、社交媒体、社交视频一样重大而深远,你可以管它叫“社交制作”。
让我们从几段视频中找一找问题:
案例
1
:
很明显,创作者让Sora生成一段员工正在工作的视频,他想看看视频会出什么错误。和预想的一样,Sora犯错了,的确有两只手正在敲击,但手并没有击中键盘。细细看,敲击时,文本也并没有变化。
AI明显不像人类。许多试用者都认为,AI基本上不懂物理。AI如果想理解物理,就应该知道一个对象相对于另一个对象应该做出怎样的反应。和LLM幻觉一样,Sora视频模型很难处理好对象的移动。
案例
2
:
这段视频测试的是Sora有没有能力渲染好风景,它需要捕捉光线的细微差别,观察物体的移动。从表面看,Sora生成的视频十分漂亮,但仍然不真实。
天上的海鸥看起来像是被某种磁力吸引,然后像回旋镖一样飞走,飞翔的方式并不真实。创作者希望视频能让人震撼,Sora还做不到。
案例
3
:
制作这段视频的提示是这样的:“雨夜,在熙熙攘攘的城市街道上,潮湿的路面倒映着霓虹灯。”它在城市环境、天气、复杂光线等几个方面对Sora进行考验。
整体看,Sora表现不错,只是行人的腿有些古怪,你可以观察右上角打红色雨伞的行人,就能看出一些问题。灯光和倒影还不错,水坑中的倒影显得蛮真实。
案例4:
创作者告诉Sora:“充满未来感的机器人穿越树森,它与野生动物互动。”
创作者希望将科幻小说元素和自然景观融合在一起,看看Sora能否融合不同的主题。在聚合方面Sora做得不错,小小的松鼠,巨大的机器人,二者配合得不错。树、自然环境非常真实,机器人符合预想。
案例5:
我们尝试将机器人、城市夜景两段视频结合,生成一段新视频。
不得不承认,结合的两段视频是分割的,并没有达到预期。
案例6:
提示:“在现代风格的厨房里,厨师正在炒菜。”
这段视频测试的是Sora描绘人类行动、烹饪细节和室内环境的能力,视频虽然很逼真,但错误相当明显。
锅中的黄色辣椒根本没有切,锅没有放在灶台上,而是放在台面上。让人欣慰的的是,厨师的动作、面部表情还不错。
案例7:
创作者找了一段视频,视频中一只鸟站在门廊上,然后告诉Sora,让它在视频中添加一只猫。创作者想看看Sora的混编能力如何!
Sora可以生成风景和生物,但它无法将猫放进视频,也许应该多试几次。
离完美仍然有距离
Youtube播客Marques Brownlee
发布了一些他自己用Sora制作的视频。
他认为,Sora的确可以制作一些让人惊叹、有时很逼真的视频,但视频的细节有时会存在错误,视频中有很多地方AI味道浓厚,有时还会随机增加或者删除一些对象。
例如,人的手上拿着物件,从视频开始到结束本来应该一直拿着,但视频中物件可能突然消失。视频中的对象似乎很难正确移动,例如一个人在走路,本来很简单,但人物可能会以不自然的方式放慢速度或者加速,身体的部分可能会突然扭曲变形。
当前阶段,如果想用Sora制作出视频神作,可能依然是:有多少人工智能,就有多少人工!大量的提示词尝试、一次次矫正、长时间地测试和优化。
按照
Marques Brownlee
的说法,在生成真人肖像、暴力内容和一些相关主题的内容
时
,
Sora
进行了严格限制。
Sora工程师Rohan Sahai证实,自2月份Sora亮相以来,OpenAI做了很多安全工作,确保不会误用。
OpenAI也知道Sora存在局限性,它说:“早期版本的Sora生成视频会出现一些错误,它是不完美的。”面对物理模拟、复杂动作,Sora都不能很好应付。
和以前看到的视频生成工具一样,Sora也不能生成真正全新的事物,它只是以现有架构作为基础进行一定的变化,将现有概念进行新的表达,原创能力并不强。
整体看Sora表现还不错,其实其它视频生成工具也不错,只是生成的时间比Sora长一些。只需要不到5分钟,用户就可以生成3-5秒的视频。
允许用户编辑提示语,可以混编视频,这些功能相当酷。有时简单的提示也可以生成精彩的视频,给人留下深刻印象。
ChatGPT Plus用户每月只能生成50个视频,所以制作视频时要考虑好提示语,不要随便尝试,浪费机会。
为了安全起见,Sora对人的生成进行了限制,背后的原因值得深思。
从种种迹象看,Sora处理人物仍然不完美,藏拙也可能是限制的原因之一。
欣赏一些Sora的作品
Sora Turbo依然给我们带来了巨大的惊喜,对传统的视频、广告、影视行业是必须重视的新趋势和新工具。
下面就让我们一起来欣赏更多的Sora作品!
提示:浴缸里有一只橡皮鸭子,还有一只用洗发水泡泡生成的龙,龙在吐着泡泡。
提示:加拿大艺人用
Sora
制作的音乐视频
。
作者拍了一些视频,然后用
Sora
将视频与其它更有趣、更加超现实的视频融合在一起。
提示:冬天,一只金毛猎犬穿着超级英雄的服装,戴着面具,披着斗篷,站在帝国大厦的顶层俯视纽约市。
BTW 技术亮点再回顾
按照OpenAI的说法,只有理解、模拟现实,模型才能与物理世界互动,才有可能真正进化出AGI。
OpenAI首席执行官Sam Altman强调,Sora可以成为创意人士的制作工具,可以突破文本限制,增加更多创作维度,让用户以全新方式与技术互动,还有,视频将会成为AI学习的关键,帮助AI掌握许多复杂技能,处理更多任务。
OpenAI Sora艺术项目主管Souki Mansoor说:“有些人想通过视觉方式探索新世界,分享自己的创意,Sora将为他们打开大门,对那些没有资源、没有接受过训练的人来说更是如此。影片制作可是非常昂贵的。”
我们再来回顾一下Sora Turbo的技术亮点!
故事板
(
Storyboarding)功能:
这一次OpenAI特别重视故事板功能,它可以通过一系列提示生成视频,可以将照片转化为视频;
简单来说,有了故事板功能,用户可以输入一连串提示,让它生成更连贯的视频。
混编(remix)功能:
也是技术重点,用户可以通过调整文本提示优化输出,可以将两份段场景拼在一起。
例如,通过Sora可以生成在沙漠中行走的猛犸象,用户可以调整长宽比、分辨率,可以生成多个同类视频;通过混编功能,用户可以将沙漠替换为震撼的雪山。
重描述技术(recaptioning technique)
:在视频模型中,Sora用到了重描述,类似于DALL-E 3图片生成器使用的技术,它可以为视觉训练数据生成高度描述性的字幕,正因如此,Sora可以以更忠实的态度按照用户的文本指令生成视频。
相比2月展示的产品,正式版Sora处理速度更快。
很明显,尽管Sora Turbo并不完美,但OpenAI对它寄予厚望。
大概率它正是付费用户转化的关键。
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,
欢迎私信“投稿”,
添加编辑微信
。
如果您想要获取最新的科技趋势分析、行业内部的独家见解、
定期的互动讨论和知识分享、
与行业专家的直接面对面交流的机会!
欢迎扫描下方二维码,
添
加头部科技创始人、AI头号玩家俱乐部主理人晶总微信!
头部科技
头部科技是技术新世界的记录者、探索者和推动者。我们致力于普及细分场景的科技解决方案,打造科技和人才创新知识图谱。无论你身处技术公司或传统行业,在这里都可以找到智能化、数字化升级的案例和伙伴。在无限的时空中,和你共同探索科技原力是我们的荣光。
最新文章
CES 2025前瞻:AI无处不在
硬碰硬开局!28家美国实体被列入管制管控名单,1600亿基金再砸硬科技!
惊呆网友!微软论文意外“泄密”OpenAI模型参数引热议,GPT-4o mini仅8B?
WAIC创投生态 | 2025 Future Tech项目路演1月9日名单出炉!
一年亏10亿股价反涨406.45%!国产AI芯片的春天要来了?
OpenAI彻底蜕变!摆脱“非营利”标签束缚或为IPO铺路
2025中关村智能网联汽车创新发展论坛震撼来袭
国产之光刷屏AI圈!DeepSeek-V3成当前最强开源大模型
传ChatGPT将拥有全新“无限”记忆功能?!OpenAI的一篇帖子引热议
2025中关村智能网联汽车创新发展论坛即将开幕!
三分之二产品在用中国芯?美国又针对中国传统芯片下手了
3年半亏损2.5亿,“协作机器人第一股”难当第一
红杉:AI为赚钱发愁 搜索成为热点
人才流失!OpenAI资深研究员、初代GPT缔造者Alec Radford离职
涉及20+实验室,打磨2年!华人小伙儿领衔的开源生成式物理引擎Genesis令人惊叹!
国家电网发布国内首个千亿级多模态电力行业大模型
量子计算哪家强?潘建伟、朱晓波等科学家公布“祖冲之3.0”处理器进展对阵谷歌Willow
不服就干!谷歌重磅新品三连发反击OpenAI玩ChatGPT搜索
月付2000美元!OpenAI CFO称博士级AI要来了,能“替代”人类雇员
新能源+数智化浪潮下 ,信息通信创新如何改变电力行业?
OpenAI长文爆料反击马斯克诉讼:“你不能通过诉讼获得AGI”
不甘示弱!微软祭出小型语言模型Phi-4,在数学竞赛上超过GPT-4o和Gemini1.5
12月20日,上海见|梧桐荟 “产·投·研”沙龙 第6期——芯片级散热技术发展应用与投资机会
Sora试用报告:错误不少,一起找茬
黄仁勋:扫过最多厕所的CEO
“Open AI 12天”上新第4弹:Canvas协作工具正式开放,但实际并没想象中那么好?
刚刚,OpenAI Sora来啦!AI视频新纪元已开启
杨植麟响应仲裁风波,起底人性月之暗面
每月200美金订阅,OpenAI 「十二夜」圈钱忙
大厂小厂肉搏,中国大模型进入淘汰赛
NeurIPS 2024最佳论文!
一图一世界,一飞一菩提
ChatGPT问世2年,我们的世界哪里变了
智能体,大模型进化下一站
从Neuralink开始 美国脑机接口研究迎来春天
绿色氢能,零碳飞行
亚马逊向英伟达芯片发起冲锋
AI将进化超级智能,还是逐步崩坏?
为什么能源需要AI? | 2024能源人工智能创新发展大会圆满举办
AI广告,正在不完美中开创新时代
北京今年最大一笔融资诞生,国产半导体乘风而起
储能沙龙 | 新质生产力与储能行业协同发展及投资机遇沙龙成功举办
蘑菇车联新突破:路侧数据上车,赋能多品牌车辆
具身大模型,国内最大融资诞生
Scaling Law遇阻,AI 性能或难再有大提升
共谋AI未来发展,2024 AI创新应用发展交流会成功举办
AI的尽头,是能源
活动预告 | 梧桐荟 “产·投·研”沙龙 第5期——储能产业专场
120亿独角兽,自主工业品牌变身
电力领域出了一个国际级领先技术
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉