用AI编程实现 Whisk#使用图像和人工智能将想法可视化并重新混合

科技   2024-12-21 21:13   日本  


Whisk 是 Google Labs 的一项新实验,可让你使用图像进行快速而有趣的创作。


Whisk的主要功能是通过图像提示生成新的创意图像。这一过程依赖于Google的两大AI模型:GeminiImagen 3


Gemini 是 Google DeepMind 推出的一个对标ChatGPT的人工智能模型,旨在处理多模态输入。Gemini 最新的是 Gemini 2.0。


Imagen 3 是谷歌最新的AI图像。该模型能够生成具有更高细节、丰富光照和更少干扰伪影的高质量图像。

Gemini负责将用户上传的图像转化为详细的描述,而Imagen 3则基于这些描述生成新的图像。📷✨

图像输入:用户可以上传或选择三种关键元素的图像——

主题(想要创建的内容或对象)
场景(环境或背景)
风格(视觉风格)



图像生成:Whisk会处理这些输入,利用Gemini为参考图像生成详细的标题,并通过Imagen 3模型生成新的创意图像。🎨🔄

谷歌并没有使用类似于IPAdapter或者像Lora这种技术,而是使用多模态模型直接对图像进行文字描述的生成。

所以,谷歌也提到了:“此过程会捕捉主题的本质,而不是一模一样的复制品。这样,您可以轻松地以新颖的方式重新组合主题、场景和风格。”

没错,捕捉主题的本质,也就是用文字来高度概括你上传的主题图片。

谷歌也考虑到了某些情况下,捕捉到的主题本质不是你要的。

“主题可能具有不同的身高、体重、发型或肤色。这些特征对你的项目来说可能至关重要,而 Whisk 可能会达不到要求,因此我们允许用户随时查看和编辑底层提示。

—— 也就是给了个合理的理由,展示 Gemini生成的文字描述(prompt)给你看,你可以直接修改。

这不就是我们一直这么玩的方式么? 图像反推、 然后自己修改prompt,再用prompt生成图像。。。但让谷歌一介绍,就变得高级起来。

谷歌:“我们构建它是为了快速进行视觉探索,而不是进行像素完美的编辑。它旨在以新颖和富有创意的方式探索创意,让您可以尝试数十种选项并下载您喜欢的选项。”


🚀 用AI编程实现

——

所以,是完全可以自己DIY组装成类似于Whisk的产品的


使用任意多模态模型,把输入的图片进行描述生成,然后使用任意文生图模型生成即可。


使用AI编程,正好今天Github上有免费的copilot可以用了:



生成的代码是用python做了个后端:

然后还发现AI也偷懒了:

不过没关系,整个项目很快就搭建了一个初稿出来了,我们稍微花点时间修一修,也就能用了~~~



——

近期推荐:

Mixlab AI编程线下训练营@上海N5-全新升级



入交流群,联系opus

无界社区mixlab
跨学科探索实验,让每个人无限可能。 def mixlab(人工智能,设计): ... return 无限可能
 最新文章