他说:“整个世界因为AI而被重置”——这里有一份AIGC使用指南【下篇】

文摘   2024-11-26 21:32   中国香港  

这周,香港最热的话题,莫过于Nvidia英伟达CEO黄仁勋来到香港。

获颁香港科技大学荣誉博士、换上科大“火鸡”皮衣,送4060显卡,香港街头大排档吃小炒、喝啤酒……在香港掀起了一阵“黄氏”热潮。

图片来源:来自网络

“我们正站在一个全新产业的起点。”

黄仁勋上周六来到香港科技大学参加了工程学荣誉博士学位颁授典礼,他和科大校董会主席兼著名人工智能专家沈向洋教授对话时,提及人工智能对这个时代的重要性时这样说道。

作为硅谷任职最长的CEO之一,当被问及如何保持惊人的工作节奏时,黄仁勋回答说关键在于需要不断学习和重塑自己,因为世界不断变化、公司在变、技术也在变化。他举例说,在飞往香港的航班上,他会看YouTube视频,也会和他的AI“导师”对话,像是“为什么给出这样的答案?”“请一步步解释”。通过这种互动来不断学习。

黄仁勋在科大的演讲中说:AI可能是人类历史上最重要的技术。人工智能已经开始了一个全新的计算时代,它将影响每一个科学领域的每一个行业。整个世界都因为AI而被重置,产业正在被重新改造,新的产业正在被创造出来。

有了AI工具,可以在许多不同领域推进科学发展。对于大部分人来讲,学会如何让AI工具成为我们的“打工搭子”更为重要。上期我们梳理了文字大模型的隐藏玩法?这期让我们来看看文生图大模型和AI视频大模型可以帮助我们做什么?有什么办法可以使得效果加倍!


在AI文生图领域,虽然有Open AI开发的DALL-E2、由Stability AI、CompVis和LAION等组织共同研发的Stable Diffusion等大模型,但相信不少人心目中的文生图大模型No.1 还是Midjourney。

与很多文生图不同,Midjourney推出两年多,一直没有网页端,需要用户在Discord服务器上与机器人交互来生成图片,不过在今年的8月21日,Midjourney 正式发布了网页端。此外,Midjourney 还因其最新版本 Midjourney V6.1 受到关注,该版本在画质和细节渲染上有明显提升,并优化了 upscale 模型,可以在放大图像时提供更精致的细节。我们以Midjourney为例,来看看都有哪些使用Tips?



Tips1:大模型万能公式(Prompt)

公式1=主体+材质+环境+灯光+颜色+氛围+构图

如果还有更加高的要求,就加入镜头语言和光影,辅助氛围描写,画面的质感会有所提升,将更满足对镜头和光影等方面的需求。


Tips2:Midjourney命令列表


/help

显示有关Midjourney Bot的有用基本信息和提示。

/imagine

使用提示生成图像。

/feedback

提交对Midjourney的建议和想法,并评价其他人的想法。

/ask

获取问题的答案。

/blend

轻松将两张图片混合在一起。

/daily_theme

切换#daily-theme频道更新的通知提醒。

/describe

根据你上传的图片编写四个示例提示。

/docs

在官方Midjourney Discord服务器中使用,快速生成此用户指南中涵盖主题的链接。

/fast

切换到快速模式。

/faq

在官方Midjourney Discord服务器中使用,快速生成流行提示工艺频道常见问题解答的链接。

/info

查看有关你的账户以及任何排队或运行中的工作的信息。

/invite

获取Midjourney Discord服务器的邀请链接。

/list_tuners

生成你创建的所有风格调节器的列表。

/prefer

创建或管理自定义选项。

/prefer option list

查看你当前的自定义选项。

/prefer remix

切换Remix模式。

/prefer suffix

指定要添加到每个提示末尾的后缀。

/prefer variability

在使用V1 V2 V3和V4按钮时,切换高和低变化。

/public

对于Pro计划订阅者:切换到公共模式。

/relax

切换到放松模式。

/settings

查看和调整Midjourney Bot的设置。

/stealth

对于Pro计划订阅者:切换到隐身模式。

/shorten

提交一个长提示,并接收如何使其更简洁的建议。

/show

使用图片作业ID在Discord内重新生成作业。

/subscribe

生成用户账户页面的个人链接。

/synonyms

在官方Midjourney Discord服务器中使用,探索在提示中尝试的相关单词和短语。

/tune

根据你的提示生成风格调节器。风格调节器让你可以制作自己的Midjourney风格,并自定义你的工作的外观。

/turbo

切换到涡轮模式。

/userid

获取你的Midjourney用户ID。

图表来源:Midjourney



Tips 3:如何生成更加高清的图片?



1. 生成图像

 使用命令创建图像  /imagine。

 指令/In the early evening, Elon Musk is inside his spaceship on Mars, and the picture shows Musk's front face./

图片演示模型:Midjourney



2. 选择图片

在图片生成之后,图片生成之后,会有U1-U4、V1-V4按钮。

1-4指的是图片编号,分别代表是左上、右下、左下、右下4个位置

U指的是:Upscale,指针对这张图片放大和填充更多细节。当你挑出满意的图片之后可以使用U指令进行单张图片的细化放大。

V指的是:Variation,指针对这张图片进行变体微调。再生成一组图片。

我们想要让图片更高清,所以选择U按钮选择图像与网格分离。

图片演示模型:Midjourney



3. 选择Upscale

单击Upscale (Subtle)或Upscale (Creative)按钮放大图像。放大器将把图像尺寸翻倍至 2048 x 2048 像素

图片演示模型:Midjourney


图片前后对比,左图为原始图片,右图是升级到2048*2048像素后

图片演示模型:Midjourney



Tips 4:如何修改局部内容?



1. 生成图像

使用 /imagin  命令创建图像


2. 放大图像

使用 U按钮  放大所选图像。


3. 选择变化区域

点击 🖌️Vary(Region) 按钮打开编辑界面。

图片演示模型:Midjourney


4. 选择要重新生成的区域

在编辑器左下角选择 自由手或矩形选择工具  

选择你想要重新生成的图像区域。

你的选择大小将影响结果。较大的选择区域给Midjourney Bot提供了更多空间来生成新的创意细节。较小的选择将带来更微妙的变化。

注意:你不能编辑现有选择,但可以使用右上角的撤销按钮来撤销之前的步骤。

图片演示模型:Midjourney


5. 提交你的工作

点击提交 →  按钮将你的请求发送给Midjourney Bot。现在可以关闭变化区域编辑器,返回Discord,同时你的工作正在处理中。

注意:你可以多次使用放大图像下方的 🖌️Vary(Region) 变化区域按钮来尝试不同的选择。你之前的选择将被保留。你可以继续添加到这个现有选择,或者使用Undo撤销按钮来清除你的选择。


6. 查看结果

Midjourney Bot将处理你的工作,并在你选择的区域内生成新的变化图像网格。

图片演示模型:Midjourney



Tips 5:如何混合几张图片?


 /blend  选项

  • 输入 /blend 命令后,系统会提示你上传两张图片。你可以通过拖放或从移动设备的相册中添加图片。

  • 若要添加更多图片,选择optional/options字段,然后选择image3、image4或image5。

  • /blend命令可能比其他命令启动时间更长,因为必须先上传图片,Midjourney Bot才能处理你的请求。

  • 混合图片默认采用1:1的宽高比,但你可以使用可选的dimensions字段选择方形宽高比(1:1)、竖向宽高比(2:3)或横向宽高比(3:2)。

 自定义  后缀

  • 可以像其他/imagine提示一样,在/blend提示的末尾添加自定义后缀。

  • 在/blend命令中指定的宽高比会覆盖自定义后缀中的宽高比。

 提示  

  • 为了获得最佳结果,上传与期望结果相同宽高比的图片。

使用/blend的步骤

  1. 输入/blend命令。

  2. 按照提示上传两张图片。

  3. 如有必要,添加更多图片。

  4. 选择所需的宽高比。

  5. 提交命令并等待Midjourney Bot处理你的请求。

图片演示模型:Midjourney


Goodfellow等人在2014年提出生成对抗网络(GAN),这是AI视频生成技术的重要起点,它通过生成器和判别器的对抗训练生成逼真的图像或视频。随后,变分自编码器(VAE)、扩散模型和Transformer模型的发展,进一步推动了视频生成技术的演化和发展。

但直到有真正落地的产品,AI视频大模型才走进大众的视野。

2023年2月,Runway率先发布多模态AI系统Runway Gen-2,能够通过文本、图像或视频片段生成新颖的视频。但Runway的首代产品在处理复杂场景和保持长时间连贯性方面仍存在很大的挑战。

2023年7月,Pika在Discord平台上线,11月份正式推出网页端视频生成工具 Pika 1.0,凭借惊艳的表现,引得国内外各路媒体纷纷报道。值得一提的是,今年3月,Pika发布了一项新功能,可以给视频无缝生成音效了,生成的方式有两种,要么给一句Prompt,描述你想要的声音,要么直接让Pika根据视频内容自动生成。

2024年2月,由OpenAI开发的Sora横空出世,凭借视频丰富的细节、逼真的角色和场景、多角度镜头生成长达一分钟的视频,从发布伊始就一骑绝尘,将其他视频大模型远远甩在身后。

今年7月、8月,由快手大模型团队和字节跳动剪映团队研发的国产视频大模型可灵、即梦加入“battle圈”。其中,可灵凭借对用户极其友好的操作体验,支持一键自由定制宽高比,以及生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力,在国内外社交媒体迅速走红,受到广泛讨论。

从Runway、Pika到Sora再到可灵、即梦,AI视频生成赛道也是挤得满满当当,视频生成赛道已然“入夏”。对于普通用户来讲,如何用好这些模型让工作事半功倍,又如何让没有接触过视频生产的用户也能够用好工具体验自己当“导演”的乐趣?让我们继续看下去叭。



如何制作文生视频?



万能公式=主体描述+运动+场景(场景描述)+(镜头语言+光影+氛围)



文生视频Tips

  • 尽量使用简单词语和句子结构,避免使用过于复杂的语言;

  • 画面内容尽可能简单,可以在5s到10s内完成;

  • 当前视频大模型对数字还不敏感,比如~10个小狗在海滩上”,数量很难保持一致;

  • 分屏场景,可以使用prompt:“4个机位,春夏秋冬”;

  • 现阶段较难生成复杂的物理运动,比如球类的弹跳、高空抛物等;

演示模型:可灵

 指令: Elon musk和镜头打招呼

生成结果

图片演示模型:可灵

我们可以看到影像十分流畅,但可以看到主角并不是我们预想的埃隆·马斯克,我们接下来尝试用垫图可以调整指令来优化视频内容。



如何制作图生视频?

图生视频万能公式=主体+运动,背景+运动

图生视频是当前创作者使用频率最高的功能,这是因为从视频创作角度来看,图生视频更可控,创作者可以用提前抽卡生成好的图片进行动态视频生成,极大降低了专业视频的创作成本与门槛。用户可以通过文本来控制图片中的主体进行运动,如最近网上爆火的“老照片复活”、“与小时候的自己拥抱”。

使用小技巧

  • 尽量使用简单词语和句子结构,避免使用过于复杂的语言;

  • 运动符合物理规律,尽量用图片中可能发生的运动描述;

  • 描述与图片相差较大,可能会引起镜头切换;

  • 现阶段较难生成复杂的物理运动,比如球类的弹跳、高空抛物等


演示模型:可灵

 垫图 

图片来源:Vogue


 指令 :  

画面右边的人物Elon musk和镜头比耶

生成结果

图片演示模型:可灵

可以看到,在垫图之后,视频的发挥就稳定多了。



如何延长视频时长?


万能公式=主体+运动

主体:指上传图片中希望运动的主体,为了保证较好的文本响应能力,选一个主体效果会好一些;

运动:指目标主体希望实现的运动轨迹。

目前,市面上的一些AI产品可以将生成后的视频可续写4~5秒,并支持多次续写,可通过微调提示词进行视频续写创作。

以可灵为例,视频延长功能位于视频生成后左下角Tab,有“自动延长”与“自定义创意延长”两种模式,“自动延长”是指无需输入Prompt,模型根据对视频本身的理解进行视频续写,“自定义创意延长”是用户可以通过文本控制延长后的视频,这里Prompt需要与原视频相关,写明原视频的“主体+运动”。

生成结果

图片演示模型:可灵


看完这些最受欢迎的AI应用功能,你觉得最有用的是什么工具,你最常使用的AIGC大模型又是什么?欢迎在评论区留言。




創科香港基金會(Hong Kong X Foundation)是紅杉中國發起的公益基金會,作為紅杉中國企業社會責任的重要載體之一,兼具智庫與倡導型公益機構屬性,致力於推動香港創科生態發展,支持香港青年科技創新創業,並推動香港及粵港澳大灣區發展成為國際創新科技中心。


香港創科教育中心(Hong Kong InnoX Academy)為創科香港基金會 Hong Kong X Foundation於2022年發起設立的一個創新型政產學研共建的非營利性教育機構,面向香港及大灣區青年人,提供體系化的創新創業教育,以「賦能年輕人以無窮科技創新能力」為願景,結合港深兩地全方位資源,培養學以致用的創新領袖和創業人才。

香港X科技创业平台
由红杉中国创始及执行合伙人沈南鹏先生,香港科技大学李泽湘教授及香港大学陈冠华教授,联合22位香港超级教授及科技精英创办。平台愿景是激发香港青年科技创新创业,促进香港和粤港澳大湾区建设成为国际创新科技中心。
 最新文章