首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

用AI编程实现 Whisk#使用图像和人工智能将想法可视化并重新混合

科技 2024-12-21 21:13 日本

Whisk 是 Google Labs 的一项新实验，可让你使用图像进行快速而有趣的创作。

Whisk的主要功能是通过图像提示生成新的创意图像。这一过程依赖于Google的两大AI模型：Gemini和Imagen 3。

Gemini 是 Google DeepMind 推出的一个对标ChatGPT的人工智能模型，旨在处理多模态输入。Gemini 最新的是 Gemini 2.0。

Imagen 3 是谷歌最新的AI图像。该模型能够生成具有更高细节、丰富光照和更少干扰伪影的高质量图像。

Gemini负责将用户上传的图像转化为详细的描述，而Imagen 3则基于这些描述生成新的图像。📷✨

图像输入：用户可以上传或选择三种关键元素的图像——

主题（想要创建的内容或对象）

场景（环境或背景）

风格（视觉风格）

图像生成：Whisk会处理这些输入，利用Gemini为参考图像生成详细的标题，并通过Imagen 3模型生成新的创意图像。🎨🔄

谷歌并没有使用类似于IPAdapter或者像Lora这种技术，而是使用多模态模型直接对图像进行文字描述的生成。

所以，谷歌也提到了：“此过程会捕捉主题的本质，而不是一模一样的复制品。这样，您可以轻松地以新颖的方式重新组合主题、场景和风格。”

没错，捕捉主题的本质，也就是用文字来高度概括你上传的主题图片。

谷歌也考虑到了某些情况下，捕捉到的主题本质不是你要的。

“主题可能具有不同的身高、体重、发型或肤色。这些特征对你的项目来说可能至关重要，而 Whisk 可能会达不到要求，因此我们允许用户随时查看和编辑底层提示。”

—— 也就是给了个合理的理由，展示 Gemini生成的文字描述（prompt）给你看，你可以直接修改。

这不就是我们一直这么玩的方式么？图像反推、然后自己修改prompt，再用prompt生成图像。。。但让谷歌一介绍，就变得高级起来。

谷歌：“我们构建它是为了快速进行视觉探索，而不是进行像素完美的编辑。它旨在以新颖和富有创意的方式探索创意，让您可以尝试数十种选项并下载您喜欢的选项。”

🚀 用AI编程实现

——

所以，是完全可以自己DIY组装成类似于Whisk的产品的。

使用任意多模态模型，把输入的图片进行描述生成，然后使用任意文生图模型生成即可。

使用AI编程，正好今天Github上有免费的copilot可以用了：

生成的代码是用python做了个后端:

然后还发现AI也偷懒了：

不过没关系，整个项目很快就搭建了一个初稿出来了，我们稍微花点时间修一修，也就能用了~~~

——

近期推荐：

Mixlab AI编程线下训练营@上海N5-全新升级

入交流群，联系opus

无界社区mixlab

跨学科探索实验，让每个人无限可能。 def mixlab（人工智能，设计）： ... return 无限可能

最新文章

混合式教育正在发生#AI编程训练营，设计老师回访

售出超900台，Ropet “养成系” 萌宠机器人#直击 CES 2025

设计教育，是时候要升级了

Mixlab AI编程训练营2月15日 @上海N6-再次创造

发现问题、掌握Debug技巧#Cursor进阶

用 Vision Pro 在虚拟空间买黄金，兴业银行这脑洞，我给满分！

遇见AIER的嘉宾们：从广告创意、云计算、AI技术应用到教育领域

AI正在成为“语言大师”和“操控高手”

AI会让创意更珍贵：对话头部广告创意总监 × AI艺术家

非程序员使用Cursor的指南#If this is the future, I want to live in it.

AI玩具#心语娃娃：懂情绪，会回应

Mixlab 寻打破次元壁的伙伴，共创 50 人沉浸式新年体验

ComfyUI：使用 8GB显存运行混元视频模型

谷歌的Deep Search#生成式搜索引擎的进化方向

把‘游戏’搬进车里：基于 Unity 游戏引擎的3D座舱系统

Mixlab推荐：谷歌DevFest 15周年献礼#代码的诗篇，艺术的画布，法律的序章

GenAI的设计新范式：斜杆设计师，都应该开发个人项目/产品

完成抽奖功能，只需1天，比传统流程更高效的设计研发的新范式：所想即所得

用AI编程实现 Whisk#使用图像和人工智能将想法可视化并重新混合

Github上Copilot已经可以免费使用若干额度了

用多模态来分析意图

InfiniteBox：集软件开发（AI、VisonPro）、空间、装置、品牌设计、内容创意于一体的复合型事务所

再见996！产品经理用AI编程做数据分析，辅助决策#AI编程线下训练营 - 产品经理回访

保时捷，用Vision Pro将发布会玩出新高度

Mixlab AI编程线下训练营@上海N5-全新升级

探索的真正意义在于超越自己的能力边界：AI编程线下训练营 - 程序员回访

高校教师为何热衷学习#AI编程？新创造力工具

AI让创造变得越来越简单，让每个人都能把想法变成现实#AI编程训练营 - 设计师回访

毕设选题：AI Agent 全栈设计#AI编程训练营 - 学生回访

在上海的第四期AI编程训练营里，我看到的故事与感悟

AI被人类骗走34万！用于解决复杂任务的通用多智能体系统#Magentic-One

Narya.ai正在寻找iOS工程师！#Mixlab内推

从初学者到专家：哪款AI编程工具最适合你？

Mixlab推荐：进博会雅诗兰黛集团沉浸式 XR 体验｜2024 进博会

DeepMind：快速实验者将受益于发现的黄金时代#跨学科AI科学研究

多模态科技与人文艺术,从古良渚加速到赛博朋克#微醺夜聊会#Mixlab推荐

手势互动、多Agent、爬虫等等，普通人也能 DIY 软件#Cursor AI编程#线下训练营@上海N4

如何用Agent批量精读论文？#教程

AI编程：手势追踪玩起来

新手必看：用Cursors提升AI编程效率的实战经验#AI编程挑战赛 Fit Coach 智能健身助手

新手必看：用Cursors提升AI编程效率的实战经验#AI编程挑战赛 Fit Coach 智能健身助手

快，领取资料包！这是用AI编程整理的139篇论文#人机交互顶会CSCW 2024

AI编程入门指南003：AI编程的核心技能

AI编程入门指南002：API、数据库和应用部署

AI编程入门指南001：从语言选择到模块化思维

AI编程挑战赛获奖选手@Neonity分享心得

商用级交互产品#用Cursor挑战一天开发

这一届Mixlab AI编程挑战赛都产生了什么样的作品？？？

论文阅读神器！MiX Copilot新版来了#文末抽奖！

Thinking-Claude / Prompt 解释

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉