在AI文生图领域,虽然有Open AI开发的DALL-E2、由Stability AI、CompVis和LAION等组织共同研发的Stable Diffusion等大模型,但相信不少人心目中的文生图大模型No.1 还是Midjourney。
与很多文生图不同,Midjourney推出两年多,一直没有网页端,需要用户在Discord服务器上与机器人交互来生成图片,不过在今年的8月21日,Midjourney 正式发布了网页端。此外,Midjourney 还因其最新版本 Midjourney V6.1 受到关注,该版本在画质和细节渲染上有明显提升,并优化了 upscale 模型,可以在放大图像时提供更精致的细节。我们以Midjourney为例,来看看都有哪些使用Tips?
Tips1:大模型万能公式(Prompt)
公式1=主体+材质+环境+灯光+颜色+氛围+构图
如果还有更加高的要求,就加入镜头语言和光影,辅助氛围描写,画面的质感会有所提升,将更满足对镜头和光影等方面的需求。
Tips2:Midjourney命令列表
/help | 显示有关Midjourney Bot的有用基本信息和提示。 |
/imagine | 使用提示生成图像。 |
/feedback | 提交对Midjourney的建议和想法,并评价其他人的想法。 |
/ask | 获取问题的答案。 |
/blend | 轻松将两张图片混合在一起。 |
/daily_theme | 切换#daily-theme频道更新的通知提醒。 |
/describe | 根据你上传的图片编写四个示例提示。 |
/docs | 在官方Midjourney Discord服务器中使用,快速生成此用户指南中涵盖主题的链接。 |
/fast | 切换到快速模式。 |
/faq | 在官方Midjourney Discord服务器中使用,快速生成流行提示工艺频道常见问题解答的链接。 |
/info | 查看有关你的账户以及任何排队或运行中的工作的信息。 |
/invite | 获取Midjourney Discord服务器的邀请链接。 |
/list_tuners | 生成你创建的所有风格调节器的列表。 |
/prefer | 创建或管理自定义选项。 |
/prefer option list | 查看你当前的自定义选项。 |
/prefer remix | 切换Remix模式。 |
/prefer suffix | 指定要添加到每个提示末尾的后缀。 |
/prefer variability | 在使用V1 V2 V3和V4按钮时,切换高和低变化。 |
/public | 对于Pro计划订阅者:切换到公共模式。 |
/relax | 切换到放松模式。 |
/settings | 查看和调整Midjourney Bot的设置。 |
/stealth | 对于Pro计划订阅者:切换到隐身模式。 |
/shorten | 提交一个长提示,并接收如何使其更简洁的建议。 |
/show | 使用图片作业ID在Discord内重新生成作业。 |
/subscribe | 生成用户账户页面的个人链接。 |
/synonyms | 在官方Midjourney Discord服务器中使用,探索在提示中尝试的相关单词和短语。 |
/tune | 根据你的提示生成风格调节器。风格调节器让你可以制作自己的Midjourney风格,并自定义你的工作的外观。 |
/turbo | 切换到涡轮模式。 |
/userid | 获取你的Midjourney用户ID。 |
图表来源:Midjourney
Tips 3:如何生成更加高清的图片?
1. 生成图像
使用命令创建图像 /imagine。
指令/In the early evening, Elon Musk is inside his spaceship on Mars, and the picture shows Musk's front face./
2. 选择图片
在图片生成之后,图片生成之后,会有U1-U4、V1-V4按钮。
1-4指的是图片编号,分别代表是左上、右下、左下、右下4个位置
U指的是:Upscale,指针对这张图片放大和填充更多细节。当你挑出满意的图片之后可以使用U指令进行单张图片的细化放大。
V指的是:Variation,指针对这张图片进行变体微调。再生成一组图片。
我们想要让图片更高清,所以选择U按钮选择图像与网格分离。
3. 选择Upscale
单击Upscale (Subtle)或Upscale (Creative)按钮放大图像。放大器将把图像尺寸翻倍至 2048 x 2048 像素
图片前后对比,左图为原始图片,右图是升级到2048*2048像素后
Tips 4:如何修改局部内容?
1. 生成图像
使用 /imagin 命令创建图像
2. 放大图像
使用 U按钮 放大所选图像。
3. 选择变化区域
点击 🖌️Vary(Region) 按钮打开编辑界面。
4. 选择要重新生成的区域
在编辑器左下角选择 自由手或矩形选择工具 。
选择你想要重新生成的图像区域。
你的选择大小将影响结果。较大的选择区域给Midjourney Bot提供了更多空间来生成新的创意细节。较小的选择将带来更微妙的变化。
注意:你不能编辑现有选择,但可以使用右上角的撤销按钮来撤销之前的步骤。
5. 提交你的工作
点击提交 → 按钮将你的请求发送给Midjourney Bot。现在可以关闭变化区域编辑器,返回Discord,同时你的工作正在处理中。
注意:你可以多次使用放大图像下方的 🖌️Vary(Region) 变化区域按钮来尝试不同的选择。你之前的选择将被保留。你可以继续添加到这个现有选择,或者使用Undo撤销按钮来清除你的选择。
6. 查看结果
Midjourney Bot将处理你的工作,并在你选择的区域内生成新的变化图像网格。
Tips 5:如何混合几张图片?
/blend 选项
输入 /blend 命令后,系统会提示你上传两张图片。你可以通过拖放或从移动设备的相册中添加图片。
若要添加更多图片,选择optional/options字段,然后选择image3、image4或image5。
/blend命令可能比其他命令启动时间更长,因为必须先上传图片,Midjourney Bot才能处理你的请求。
混合图片默认采用1:1的宽高比,但你可以使用可选的dimensions字段选择方形宽高比(1:1)、竖向宽高比(2:3)或横向宽高比(3:2)。
自定义 后缀
可以像其他/imagine提示一样,在/blend提示的末尾添加自定义后缀。
在/blend命令中指定的宽高比会覆盖自定义后缀中的宽高比。
提示
为了获得最佳结果,上传与期望结果相同宽高比的图片。
使用/blend的步骤
输入/blend命令。
按照提示上传两张图片。
如有必要,添加更多图片。
选择所需的宽高比。
提交命令并等待Midjourney Bot处理你的请求。
Goodfellow等人在2014年提出生成对抗网络(GAN),这是AI视频生成技术的重要起点,它通过生成器和判别器的对抗训练生成逼真的图像或视频。随后,变分自编码器(VAE)、扩散模型和Transformer模型的发展,进一步推动了视频生成技术的演化和发展。
但直到有真正落地的产品,AI视频大模型才走进大众的视野。
2023年2月,Runway率先发布多模态AI系统Runway Gen-2,能够通过文本、图像或视频片段生成新颖的视频。但Runway的首代产品在处理复杂场景和保持长时间连贯性方面仍存在很大的挑战。
2023年7月,Pika在Discord平台上线,11月份正式推出网页端视频生成工具 Pika 1.0,凭借惊艳的表现,引得国内外各路媒体纷纷报道。值得一提的是,今年3月,Pika发布了一项新功能,可以给视频无缝生成音效了,生成的方式有两种,要么给一句Prompt,描述你想要的声音,要么直接让Pika根据视频内容自动生成。
2024年2月,由OpenAI开发的Sora横空出世,凭借视频丰富的细节、逼真的角色和场景、多角度镜头生成长达一分钟的视频,从发布伊始就一骑绝尘,将其他视频大模型远远甩在身后。
今年7月、8月,由快手大模型团队和字节跳动剪映团队研发的国产视频大模型可灵、即梦加入“battle圈”。其中,可灵凭借对用户极其友好的操作体验,支持一键自由定制宽高比,以及生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力,在国内外社交媒体迅速走红,受到广泛讨论。
从Runway、Pika到Sora再到可灵、即梦,AI视频生成赛道也是挤得满满当当,视频生成赛道已然“入夏”。对于普通用户来讲,如何用好这些模型让工作事半功倍,又如何让没有接触过视频生产的用户也能够用好工具体验自己当“导演”的乐趣?让我们继续看下去叭。
如何制作文生视频?
万能公式=主体描述+运动+场景(场景描述)+(镜头语言+光影+氛围)
文生视频Tips
尽量使用简单词语和句子结构,避免使用过于复杂的语言;
画面内容尽可能简单,可以在5s到10s内完成;
当前视频大模型对数字还不敏感,比如~10个小狗在海滩上”,数量很难保持一致;
分屏场景,可以使用prompt:“4个机位,春夏秋冬”;
现阶段较难生成复杂的物理运动,比如球类的弹跳、高空抛物等;
指令: Elon musk和镜头打招呼
我们可以看到影像十分流畅,但可以看到主角并不是我们预想的埃隆·马斯克,我们接下来尝试用垫图可以调整指令来优化视频内容。
如何制作图生视频?
图生视频万能公式=主体+运动,背景+运动
图生视频是当前创作者使用频率最高的功能,这是因为从视频创作角度来看,图生视频更可控,创作者可以用提前抽卡生成好的图片进行动态视频生成,极大降低了专业视频的创作成本与门槛。用户可以通过文本来控制图片中的主体进行运动,如最近网上爆火的“老照片复活”、“与小时候的自己拥抱”。
使用小技巧
尽量使用简单词语和句子结构,避免使用过于复杂的语言;
运动符合物理规律,尽量用图片中可能发生的运动描述;
描述与图片相差较大,可能会引起镜头切换;
现阶段较难生成复杂的物理运动,比如球类的弹跳、高空抛物等
垫图
指令 :
画面右边的人物Elon musk和镜头比耶
可以看到,在垫图之后,视频的发挥就稳定多了。
如何延长视频时长?
万能公式=主体+运动
主体:指上传图片中希望运动的主体,为了保证较好的文本响应能力,选一个主体效果会好一些;
运动:指目标主体希望实现的运动轨迹。
目前,市面上的一些AI产品可以将生成后的视频可续写4~5秒,并支持多次续写,可通过微调提示词进行视频续写创作。
以可灵为例,视频延长功能位于视频生成后左下角Tab,有“自动延长”与“自定义创意延长”两种模式,“自动延长”是指无需输入Prompt,模型根据对视频本身的理解进行视频续写,“自定义创意延长”是用户可以通过文本控制延长后的视频,这里Prompt需要与原视频相关,写明原视频的“主体+运动”。
創科香港基金會(Hong Kong X Foundation)是紅杉中國發起的公益基金會,作為紅杉中國企業社會責任的重要載體之一,兼具智庫與倡導型公益機構屬性,致力於推動香港創科生態發展,支持香港青年科技創新創業,並推動香港及粵港澳大灣區發展成為國際創新科技中心。
香港創科教育中心(Hong Kong InnoX Academy)為創科香港基金會 Hong Kong X Foundation於2022年發起設立的一個創新型政產學研共建的非營利性教育機構,面向香港及大灣區青年人,提供體系化的創新創業教育,以「賦能年輕人以無窮科技創新能力」為願景,結合港深兩地全方位資源,培養學以致用的創新領袖和創業人才。