写在前面
WeThinkIn最新福利放送:大家只需关注WeThinkIn公众号,后台回复“简历资源”,即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源,希望能给大家在AIGC时代带来帮助。
AIGC时代的《三年面试五年模拟》算法工程师求职面试秘籍(持续更新)独家资源:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main
Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章(持续更新),点击链接直达干货知识:https://zhuanlan.zhihu.com/p/684068402
【导读】作为后期行业大哥级的存在,Adobe终于让Firefly AI视频功能从期货变现实了!视频中任何缺失部分,AI一键解决,效果已能媲美Runway和Sora。与此同时,经过全面升级的史上最强PS也来了。
Adobe全面进军AI生成领域!
就在2024年的Adobe MAX大会上,Adobe正式推出Firefly视频模型,以及最新升级的图像模型。
Adobe Premiere Pro加入生成式扩展
相比于一次只生成1~5秒的视频生成模型,将GenAI的能力无缝集成到视频编辑软件中,无疑是最能直接提升生产力的方式。
视频编辑——Adobe表示,你要说这个我可就不困了。
毕竟,Premiere Pro已然是最专业、应用最广泛的视频剪辑工具,很可能没有之一。
剪视频的时候,突然发现素材缺帧、色调不对、机位卡不上?基于Firefly Video模型的新功能Generative Extent,就可以免去用户重新拍摄素材的麻烦。
Adobe表示, Generative Extend是他们推出的第一个由视频专业人士打造,且专门服务于专业人士的Gen AI功能,并且具有可靠的商业安全性。
不仅只在Adobe有授权的内容上进行训练,而且绝不会私自截取用户内容作为训练数据,可以说是稳稳接住了专业创作者的痛点。
对于视频开头、结尾,或者时间轴中的任何缺失部分,只需要一拖、一点,就能让AI快速扩展,实现完美的定时编辑。
像下图左边这种镜头中不理想的视线移动,AI也可以直接自动修正。
人物的移动范围出画了,用AI自动调整画面边界,省时省力。
比如,对于模型每一次的生成结果,都可以一键「点赞」或「吐槽」。
性能方面,Pr还和英伟达进行了集成,使用RTX系列GPU加速运行,提升用户体验。
Adobe Firefly:开创视频编辑领域GenAI新纪元
随着互联网内容形式的进化,视频成为了当今时代互动社交的「硬通货」。
面对视频内容需求的持续增长,剪辑师、电影制作人和内容创作者需要在更短时间内完成更多工作的挑战。
而且,视频剪辑工作已不再局限于简单的画面剪切,还要包揽调色、字幕、动画、视觉效果、混音等一系列任务。
此时,Adobe作为专业的工具集,搭上GenAI提升生产力的快车,最为合适不过。
文生视频
首先,Firefly的文生视频功能和Runway、Sora等视频生成模型类似——用户通过prompt即可生成任何自己想要的视频。
提示:街道中央雨中男子的电影级特写肖像。光影氛围沉郁而富有戏剧性,色调以蓝色和青色调为主。男子形象极度写实,皮肤纹理精细,脸上点缀着细密胡茬。细微的动作柔和流畅,镜头保持固定。画面呈现浓重的胶片颗粒感和质感。水珠在男子脸上缓缓滑落,清晰可见。
它可以模拟各种风格,包括逼真的实景电影效果、3D动画,以及定格动画。
而对于已经生成的视频,则可以通过一套「摄像机控制」功能对其进一步细化,包括不同的摄像机角度、运动效果和拍摄距离等参数。
用摄像机控制调整生成的视频
对于创作者来说,从此,视频项目中缺镜头将不再是问题!
通过文本提示、摄像机控制和参考图像,就能生成B-Roll(补充素材),轻松填补时间轴上的空白。
只要输入详细提示,就能生成引人入胜的插入镜头,完美融入最终作品中。
提示:夜晚街道中央,一位老年男子的电影级特写和细节丰富的肖像。光线氛围沉郁而富有戏剧性。色彩调性为蓝色阴影与橙色高光的对比。主角的皮肤纹理极其逼真细腻,毛孔清晰可见。动作微妙柔和。摄像机保持静止。胶片颗粒感。复古变形镜头。
即使时间轴不缺,为简单的镜头自动添加更多内容也只是分分钟的事。
比如下面这个小女孩用放大镜看草坪的视频:
AI可以补全出放大镜下的画面:
不需要补拍任何镜头,把AI生成画面和原视频剪辑在一起,就丰富了内容性和层次感:
有的制作团队预算有限、周转时间短,但有些创意构思镜头却难以捕捉,或者成本昂贵。
此时,就可以用Adobe Firefly来可视化和规划这些镜头,然后再进行视觉特效(VFX)制作,或者返回片场补拍。
这就大大简化了前期和后期制作团队之间的沟通流程。不仅提高工作效率,还能让创意意图在整个制作过程中准确传达。
提示:在墨西哥的美丽、光线柔和的天然井中,第一人称视角镜头。水清澈蔚蓝,闪烁着午后阳光的光芒。色彩温暖,阳光呈「魔幻时刻」(magic hour)风格。高质量,电影感。
Adobe从很多业内人士那里了解到,如果能填补时间线上那些留待稍后添加视觉效果的空白,将大大加快工作流。
这样,我们就不再需要使用「在此插入镜头」的占位符了。
从业人员可以更轻松地表达自己的创意,更顺畅地指导后续的视觉效果制作。
提示:电影般的无人机镜头,飞越广阔的红色火星地貌,地面在我们下方快速掠过,随着太阳开始升起,地平线呈红色。在镜头结束时,阳光照射到地平线上方。
提示:微距镜头拍摄一只由熔岩组成的幼龙在火山内部爬行。
而Firefly生成火焰、烟雾、灰尘颗粒、水、光斑等氛围元素的能力,更是让从业者非常兴奋!
这种功能就大大增加了现有内容的视觉深度。
在黑色或绿色背景上生成这些元素,就意味着我们可以使用混合模式,或Adobe Premiere Pro、Adobe After Effects等工具进行抠像,将它们叠加到现有视频上。
提示:黑色背景上的电影感漏光,有机质感,逼真。
下面这个视频,就是在Premiere Pro中使用屏幕混合模式之后的效果。
再比如,原视频如果是这个样子,就显得有些中二且抽象:
但叠加上AI生成的火焰特效:
就得到了下面这个成品视频。AI特效不仅和原视频搭配得很有默契,而且瞬间拉满酷炫风格。
各种风格的动画作品,也都可以一键生成。
像是2D的定格动画:
提示:在阳光明媚的美丽厨房里,炉灶上的煎锅中正在烹饪一个鸡蛋,这是一个使用毛毡制作的定格二维动画。
或者手绘风格的线条插画:
提示:手绘简单线稿,一个年轻的孩子仰望太空,脸上带着充满惊叹的表情。
还有各种类型的3D动画效果:
提示:可爱的章鱼宝宝,有着迷人的眼睛,每个触手都拿着一个茶杯,快乐地四处张望,3D渲染,Octane引擎,柔和光,梦幻般的背景虚化,浅景深,电影感。
提示:用羊毛和毛毡制成的微型可爱怪物,在一起跳舞,3D渲染,Octane引擎,柔和的灯光,梦幻的虚化,富有电影质感。
提示:「SUMMER」一词由蓬松、彩虹色的云朵组成,漂浮在美丽山脉上方的有漩涡和柔和色彩的天空中,两秒钟后,「SUMMER」一词与云朵一起消散。
在深入创作之前,如果能和动画师、动作设计师沟通意图,省去不断迭代、寻找正确风格所花费的时间。
图生视频
而Firefly的图生视频功能中,我们除了可以使用文本提示,还能在旁边放上参考图像。
通过上传单个帧,就能轻松地为现有内容创建补充镜头,比如一个特写。
或者从静态照片中创建新的B-roll,让现有的图像库动起来。
提示:花朵在风中摇曳,一只美丽的蝴蝶正落在其中一朵花上。
更神奇的是,我们甚至可以改变原始镜头中的动作和意图。
比如,如果视频剪辑中有一个特定的动作,但作为剪辑师的你希望让导演重新拍摄,这时就可以使用该功能将其可视化,在保持相同外观的同时推动故事情节。
原片:
生成:
提示:一只戴着手套的宇航员的手进入画面,拔掉了黄色电缆的其中一根。电影感。
提示的使用
Firefly模型能够实现丰富的镜头控制,比如镜头远近(包括特写、中景、远景等)、角度和相机运动,以达到更精确的生成。
Firefly的这种专业特性,也就对用户输入的prompt提出了更高的要求。
从Adobe给出的官方demo来看,提示基本都相当详细;官方博客给出的建议也有这样一句话:提示越详细越好!
图生视频时可以仅描述画面的语义信息,但文生视频的prompt中基本都会包括光线、景别、镜头焦距、拍摄角度和机位、画面色彩与质感等十分细致深入的描述,才能指引模型生成出用户脑海中的画面。
Adobe建议的提示模板和具体建议如下:
镜头类型描述 + 角色 + 动作 + 位置 + 美学风格
尽可能使用更多词语来具体描述光线、摄影、色彩分级、情绪和风格
清晰描述,避免模糊不清
使用具体的动词和副词定义动作
使用大量描述性形容词
包括时间元素,如一天中的时间或天气
必要时加入相机运动
反复迭代!
反复迭代的过程中可以选择更新提示,也可以使用同一个较为成熟的提示但更改种子值(seed),从而快速尝试新的变化,而无需每次都从头开始。
比如下面这个demo的提示,虽然相比之下非常简短,但基本涵盖了模板中提到的要素。
提示:一只纸质熊猫平静地走过一片折纸竹林,电影感,可爱,柔焦,背景虚化。
Adobe全家桶升级,带来史上最强Photoshop
并且,这次Adobe再次推出新功能,让Photoshop也全面升级。
Photoshop的智能去除功能,可以让我们清理照片中不需要的元素,比如背景中的路人,或者是突兀的电线。
它能检测并移除这些元素,然后用AI生成的内容无缝填补。
左:原图;右:天空中杂乱电线被AI移除,画面简洁清晰
当然,Photoshop中也融入了Adobe Firefly的AI功能,让我们可以对画面进行生成式填充和扩展。
AI功能由最新的Adobe Firefly图像模型驱动,可以为图像带来前所未有的真实感和逼真度。
具体来说,在细节、光线、构图和色彩方面,我们可以更精确地控制生成的图像。
此外,新增的「生成相似」功能,可以让我们得到更多样化的图像变体。
生成式填充
生成式拓展
生成相似内容
在Adobe Photoshop(测试版)中,还有一个新功能,就是生成式工作区。
其他AI图像生成器只能产生有限的结果,但工作区可以让我们同时构思多个创意概念,只需输入文本提示,就能快速生成一系列图像。
这样,就能方便地搜索和重复之前的文本提示和图像,生成一组图像的同时就能开始生成下一组。
推荐阅读
1、加入AIGCmagic社区知识星球
AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向,内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等。
那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。知识星球原价:299元/年,前200名限量活动价,终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠:
2、《三年面试五年模拟》算法工程师面试秘籍
《三年面试五年模拟》面试秘籍旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法,力求让读者在获得心仪offer的同时,增强技术基本面。
Rocky已经将《三年面试五年模拟》面试秘籍的完整版构建在Github上:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main,欢迎大家star!
想要一起进行项目共建的朋友,欢迎点击链接加入项目团队:《三年面试五年模拟》版本更新白皮书,迎接AIGC时代
3、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:https://zhuanlan.zhihu.com/p/706722494
4、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:https://zhuanlan.zhihu.com/p/684068402
5、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:https://zhuanlan.zhihu.com/p/643420260
6、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:https://zhuanlan.zhihu.com/p/632809634
7、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:https://zhuanlan.zhihu.com/p/660924126
8、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:https://zhuanlan.zhihu.com/p/639229126
9、Transformer核心基础知识,核心网络结构,AIGC时代的Transformer新内涵,各AI领域Transformer的应用落地,Transformer未来发展趋势等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Transformer文章地址:https://zhuanlan.zhihu.com/p/709874399
10、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:https://zhuanlan.zhihu.com/p/651076114
11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
12、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:https://zhuanlan.zhihu.com/p/673439761
13、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
14、其他
Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本,大家可以关注公众号WeThinkIn,并在后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。