画面传声筒

学术   科技   2023-04-06 00:56   陕西  

前两天midjourney推出了一个新命令/describe这个命令和过去我们常用的画图命令/imagine是相反的,/imagine是根据你给的prompt生成图片,你用/describe可以就你输入的图片生成几个prompt关键词。

想起我们经常看到人类做的一个好玩游戏,就是大家排队传递信息,传递到最后发现传递的信息已经面目全非,于是我也打算戏耍一下midjourney,也顺便做个实验研究一下它怎么看待prompt

从手机里找了一张图片,用/describe命令传上去了。

它很快给我分析了一下,给了我四个不同的文字提示,我挑了其中一个。

trees that have lost their leaves are reflected in water at this urban landscape, in the style of joong keun lee, postmodern architecture and design, shang dynasty, konica big mini, traditional, rectangular fields, balance and harmony --ar 4:3

(在这个城市景观中,失去叶子的树在水中映出倒影,采用了Joong Keun Lee式后现代建筑和设计,商朝风格,柯尼卡大迷你相机,传统的长方形田野,体现了平衡与和谐——宽高比4:3---我用ChatGPT翻译的

我查了查这位韩国艺术家Joong Keun Lee,他是个装置艺术家,作品是这样的,另外我也不知道什么叫商朝风格。

按照这个关键词我生成了一张新图片,可以看到原来照片的角度丢了,画面里水里的几何形状物丢掉了。

(第一次生成)

然后我把midjourney自己生成的图片又给了自己describe,这次挑出来的关键词我选了这个:

some trees and modern buildings are reflected in the water, in the style of national geographic photo, contour line, xu beihong --ar 77:58

(一些树木和现代建筑在水中映出倒影,采用国家地理杂志风格的照片,等高线,徐悲鸿风格——宽高比77:58

描述的最简单,国家地理杂志风格我能理解,徐悲鸿风格我也能理解,但以前真的没想到他俩会扯到一起,我以为国家地理也就充其量和徐霞客有关系。画面比例有奇怪的变化,4:3变成了77:58,我猜其实midjourney不能真正生成4:3的画面,它只能近似的以77:58代替。

77:581.3276,4:31.3333,这其中略有差异。

按这个关键词我画了一张新的(略去四选一过程不表):

(第二次生成)

画面挺漂亮,也确实有点徐悲鸿风格,但颜色信息也丢失太多了。

把这张丢回给它自己,它又给我一堆关键词

a photo of buildings in a park with a reflection, in the style of bess hamiti, kazuki takamatsu, naturalistic cityscapes, beige and amber, desolate landscapes, constructivist roots, stock photo --ar 77:58

(一张公园里建筑物及其倒影的照片,采用Bess Hamiti、高松和树式自然主义城市景观风格,米色和琥珀色调,荒凉的景观,建构主义根源,库存照片——宽高比77:58

可见刚才对比例的猜想是正确的,它的确只会画77:58的,可能是因为徐悲鸿风格生成的照片颜色信息丢失太多,midjourney又注意回了色调,认为这是照片鲜明的风格了。这里提到了两个艺术家,Bess Hamiti是个摄影师,可以看到他的作品是这样的:

Kazuki Takamatsu是叫高松和树的日本画家,他的作品是这样的:

按照新的关键词,我又生成了一次,这回照片长这样:

(第三次生成)

这次他是这么分析关键词的:

street with tall buildings in sepia tone photo 57980952, in the style of mirrored realms, alastair magnaldo, constructivist roots, detailed nature depictions, reflections and mirroring, associated press photo --ar 77:58

(印有高楼的街道,以棕褐色调的照片57980952为背景,采用镜像境界、Alastair Magnaldo风格,建构主义根源,详细的自然描绘,倒影与镜像,美联社照片——宽高比77:58

可以看到颜色的转述出了点偏差,从米色和琥珀色调变成了棕褐色调,里面提到了照片57980952在网上没有查到是什么,估计是midjourney自己训练模型时候的一个内部照片编号。里面提到的Alastair Magnaldo是另一个摄影师。找到他的网站,发现他的特色是照片使人进入梦想统治的世界。我也找到一些他的作品放在后面,美联社照片风格很能理解,大概是要有新闻照片的风格。

Alastair Magnaldo作品

按照这个关键词生成的照片是这样的:

(第四次生成)

然后这张照片让自己描绘的关键词是这样的:

building reflect in puddle, in the style of sepia tone, new york city scenes, art nouveau, national geographic photo, stock photo, associated press photo,john wilhelm --ar 77:58

(建筑物在水坑中的倒影,采用棕褐色调、纽约城市场景、新艺术风格,国家地理杂志照片,库存照片,美联社照片,John Wilhelm风格——宽高比77:58

它把上次因为是美联社照片,所以随机生成的纽约都市景色当做了一个关键信息,记住了棕褐色调这样的信息,记住了倒影,但已经忘记了树是倒影画面的主角。又冒出了一个新的摄影师John Wilhelm,我也找了他的照片看了看,但没有理解他的风格。

(John Wilhelm作品

最后生成了这样一张:

还能想起我们原始照片什么样吗?

可见传递过程中,大部分信息都丢掉了。

这可像极了人类,我们传递信息,既东拉西扯,又添油加醋。可能我们引以为傲的产生创造力密码未来逐步逐步被计算机破译了。似乎我们原本以为的体力劳动确实要比脑力劳动高级些。


newway
newway个人公众号,主要内容都是个人随笔,内容包括地产跟踪,商业讨论,读书感悟,足球评论等。
 最新文章