Whisk 是 Google Labs 的一项新实验,可让你使用图像进行快速而有趣的创作。
Whisk的主要功能是通过图像提示生成新的创意图像。这一过程依赖于Google的两大AI模型:Gemini和Imagen 3。
Gemini 是 Google DeepMind 推出的一个对标ChatGPT的人工智能模型,旨在处理多模态输入。Gemini 最新的是 Gemini 2.0。
Imagen 3 是谷歌最新的AI图像。该模型能够生成具有更高细节、丰富光照和更少干扰伪影的高质量图像。Gemini负责将用户上传的图像转化为详细的描述,而Imagen 3则基于这些描述生成新的图像。📷✨图像输入:用户可以上传或选择三种关键元素的图像——
图像生成:Whisk会处理这些输入,利用Gemini为参考图像生成详细的标题,并通过Imagen 3模型生成新的创意图像。🎨🔄谷歌并没有使用类似于IPAdapter或者像Lora这种技术,而是使用多模态模型直接对图像进行文字描述的生成。所以,谷歌也提到了:“此过程会捕捉主题的本质,而不是一模一样的复制品。这样,您可以轻松地以新颖的方式重新组合主题、场景和风格。”没错,捕捉主题的本质,也就是用文字来高度概括你上传的主题图片。
谷歌也考虑到了某些情况下,捕捉到的主题本质不是你要的。“主题可能具有不同的身高、体重、发型或肤色。这些特征对你的项目来说可能至关重要,而 Whisk 可能会达不到要求,因此我们允许用户随时查看和编辑底层提示。”—— 也就是给了个合理的理由,展示 Gemini生成的文字描述(prompt)给你看,你可以直接修改。
这不就是我们一直这么玩的方式么? 图像反推、 然后自己修改prompt,再用prompt生成图像。。。但让谷歌一介绍,就变得高级起来。谷歌:“我们构建它是为了快速进行视觉探索,而不是进行像素完美的编辑。它旨在以新颖和富有创意的方式探索创意,让您可以尝试数十种选项并下载您喜欢的选项。”所以,是完全可以自己DIY组装成类似于Whisk的产品的。
使用任意多模态模型,把输入的图片进行描述生成,然后使用任意文生图模型生成即可。
使用AI编程,正好今天Github上有免费的copilot可以用了:
不过没关系,整个项目很快就搭建了一个初稿出来了,我们稍微花点时间修一修,也就能用了~~~
——
近期推荐:
Mixlab AI编程线下训练营@上海N5-全新升级