最近在用Midjourney画画时候找到了一个小技巧,还引发了我一些小思考,在这里分享一下。
几个月以前Midjourney推出了一个新命令:/describe,这个命令和过去我们常用的画图命令/imagine是相反的,/imagine是根据你给的prompt生成图片,而/describe是可以就你输入的图片反向生成prompt关键词。
刚出这个命令我就实验了,并且还来回反复生成图片,写了篇文章《画面传声筒》,调戏了一下midjourney这个新功能。然后就几乎没再使用了。
但我最近发现了一个新技巧,利用这个命令改进了我的作图方式,大大提升了我的作图效率,在这里我简单举个例子。例如这是一张漂亮的售楼处图片:
我用/describe将这张图片告诉Midjourney,然后它就解析出了四个视角的关键词组合:
(用ChatGPT帮忙翻译下它解析出来的关键词)
然后神奇的地方来了,就是下面这个imaging all按键,一键点击后,Midjourney就按照四个描述各自生成了四张图片。可以看到描述1-4生成是这样的:
我对其中几张特别满意,于是放大了这么几张:
描述完这个新的作图过程,说说自己的感悟:
1、排列组合和选择本身就是一种创造
我从这个新过程中重新理解了创造,图生文的四个视角的解释过程中,图片传递的丰富信息,被归纳总结精简掉了。四个视角,实际上是四种归纳方式,例如上面的例子,有的视角强调了建筑物和道路、植物的关系;有的视角着眼点在瀑布和水;有的视角就认为这完全是个花园;有的视角注意到了下雨和画面的平面风格。
然后因为传递简单信息的关键词描述, AI需要再往强调的方向上附着丰富的信息生成图片,我来选择最后的生成结果。所以这不是模仿和还原,这其实是一种创造。
前阵子看了篇介绍TRIZ的文章,这是一个前苏联科学家提出的工程发明方法论,我觉得就和这么AI画画的逻辑一样。就像有个老说法说只要尝试多,猩猩也能在打字机打出一本小说。排列组合+选择,我觉得AI也能画出很棒的艺术作品。
放眼其他领域,例如生物领域,围棋领域等等,AI创造了更大范围和更迅速的排列组合机会,只要我们掌握好选择的方法,肯定能大大加快人类的创新进程。AI不是传统的计算机,不是代替我们的机械重复工作,相反是个创意创新工具。
2、信息输入输出的带宽提升会带来处理方式的革命性差别
之前刚接触/describe命令时,我的思考方式还很落后,我用了很多图片,然后尝试让AI图生文,然后仔细阅读文字,理解什么样才是合适的生成提示词,我应该用什么样的关键词来还原画面?我甚至还整理了一个excel表格记录Midjourney的关键prompt。
我现在理解这种方法其实是一条死路,因为图生文时,信息被成几何级数的精简了,然后文生图时,大量的信息又被添加上去,一幅画背后可能是1亿个参数决定的,你学会了几百几千个prompt又有什么用处?况且你根本区分不出来这混在大参数里的小咒语的综合影响。
现在新的使用办法,就是图生文,文生图,然后挑选。可以尝试同样的文字让一遍遍的出图,也可以尝试让图生文时概括成不同的文字,再最后生成图片,不用再关注过程中的关键词,只关心最后的输出结果图片是否满意。人类眼睛看图一下子可以获取的信息非常多,大脑可以快速的判断处理,比如要追求和原图近似的?要追求有故事性的?要追求图片构图美的?可能看一眼就能给出结论,更加快速了。
通过语言做中介其实是个信息量荷载低的通道。想办法跳过它,才能取得更快的处理速度。好几年前流行大数据是说大数据时代没有因果性,只有相关性,可能就是因为因果关系是个低信息量的处理方式,相关性可能能够容纳更多的信息。
原先我们卖房做营销的时候深有体会,卖房子是个低频消费,没什么客户数据,和互联网公司快消品做营销完全不同,他们的客户研究最后都是数据驱动,落实到算法,我们还停留在传统的面对面客户深访调研,研究结果落实到粗略的规律研究。感觉这就是数据的量级影响数据处理方式的好例证。
人类个体几万年大脑没啥物理进化,人类社会就和给Switch做游戏一样,多年不升级的主机性能的孱弱,导致所有的游戏都在不断地优化适应低水平硬件。人类能持续进步是始终用更新外设来提升效率,但我们现在还在用语言文字这样的低信息量方式交流,最后进步的瓶颈可能就是在输入和输出的带宽上,未来或许我们要解决的是怎么能互相传输影像交流,人类进化的希望就在这里了。