OpenAI Dall-E 3评测:生成性AI,用于异想天开、有趣的插画

科技   2024-11-27 14:53   北京  
将「芯果」设为星标”,第一时间收获最新推送

优点

- 理解长且复杂的查询

- 引人入胜、动态的图像

- 对话式风格便于轻松修改

缺点

- 逼真的结果可能看起来假

- 生成图像速度慢

- 需要每月20美元的ChatGPT Plus订阅


有了Dall-E,OpenAI帮助开辟了将文本提示转化为图像的生成性AI的先河。现在竞争更多了,但该服务的第3版仍然站得住脚。

在我将其与Adobe Firefly和Google ImageFX进行比较测试时,我发现Dall-E 3在制作逼真且吸引人的图像方面通常做得最好,而且在超现实幻想方面几乎总是做得最好。它很慢,但最有可能在您的第一次尝试中就给出好的、可用的结果,特别是如果您正在寻找有趣的AI幻觉而不是失败的话。

Dall-E也是最鼓励您发挥疯狂想象力并探索可能性的工具。我相信有些设计师、艺术家、程序员和其他人能够实现他们的愿景,但我没有那么熟练。所以对我来说,Dall-E是一个奇迹。

OpenAI's Dall-E 3 can produce compelling, engaging imagery, like this frog on a lily pad rendered in a cut-paper style.
Stephen Shankland/CNET

OpenAI的Dall-E 3可以产生引人注目、引人入胜的图像,如图中这只青蛙坐在荷叶上,以剪纸风格呈现。

Dall-E鼓励一种过度的提示工程,人们提交段落文本,介于小品和短故事之间——这种提示被一些竞争对手视为太长而拒绝。看看这个集体愿景,堪萨斯定居者在征服自然和美洲原住民后,梦想着一个丰饶时代的来临。这是一个由186个单词的提示生成的图像。这是一种计算机放大的创造力,非常迷人,而Dall-E是我尝试过的最好的工具。

Dall-E 3只能通过每月20美元的高级ChatGPT Plus服务获得,该服务还可以让您访问更响应灵敏的ChatGPT聊天机器人和OpenAI的GPT商店,那里有其AI工具的定制版本。如果您想尝试一下可能性,您可以尝试免费的早期Dall-E 2,但其结果不如Dall-E 3好。

OpenAI表示,它可能会使用提交给Dall-E 3的内容来提高模型的性能,它与一群“可信服务提供商”共享内容,并且它不出售数据或与第三方共享内容进行营销。您还可以提交隐私请求,要求OpenAI停止使用您的数据进行训练或删除您的账户。有关详细信息,请参见OpenAI的一般隐私FAQ和主要隐私政策。

以下是我在Dall-E 3中发现的更详细内容。

CNET如何测试AI图像生成器

CNET在审查AI图像生成器时采取了实用的方法。我们的目标是确定它相对于竞争对手的表现如何,以及它最适合哪些用途。为此,我们根据真实用例给AI提示,比如以特定风格呈现、将元素合并为单个图像和处理更长的描述。我们根据图像与提示的匹配程度、结果的创造力和响应速度等因素,对图像生成器进行10分制评分。查看我们如何测试AI的更多信息。

OpenAI's Dall-E 3 generated this amusing image of an overwhelmed dog walker. It's compelling, but if you look closely, you'll see a cat, a two-headed dog and various other problems.

Stephen Shankland/CNET

OpenAI的Dall-E 3生成了这张有趣的图片,一个被太多狗弄得不知所措的狗主人。它引人注目,但如果你仔细看,你会看到一个猫、一个双头狗以及各种其他问题。

## 图像的质量如何?

它们与提示匹配得好吗?

在我尝试的文本到图像AI工具中,ChatGPT在产生有用、娱乐、可信的结果方面做得最好。它仍然犯了很多错误,比如一个头顶上长出球拍的羽毛球运动员,而不是球拍握把,但结果让我想要进一步探索,而不是关闭浏览器标签。它在动态场景、不同主体之间的接触和互动以及情绪方面做得更好。

ChatGPT是Dall-E的一个重要部分。它放大了您的提示,增加了华丽的散文,为结果注入戏剧性。它还使得对话式使用风格成为可能:您可以要求图像,然后要求微调,而无需重新提交整个查询。

ChatGPT的语言技术使其能够处理长而复杂的提示。事实证明,高级的文字处理能力对于高级图像处理能力也是有用的。

这有助于Dall-E 3在将您的提示转化为您想要的结果、正确组合多个元素方面胜过包括Adobe的Firefly和Google的ImageFX在内的竞争对手。例如,Dall-E 3是我测试的唯一一个成功创建了一只龙飞过城堡、喷火并用爪子抓着一只白色毛茸茸的羊的AI图像生成器。当然,它抱着羊的方式比我想象的要温柔一些,可能是响应OpenAI反对暴力的规定,但已经很接近了。

OpenAI的Dall-E在渲染一个爆炸的气球时比其他AI系统更接近。

Stephen Shankland/CNET

不要期望完美。Dall-E在很多细节上都搞砸了。在一张狗主人被太多狗弄得不知所措的图片中,人类被他的几十只狗可笑地压倒了。但如果你仔细看,常见的AI问题就显现出来了:其中一只狗有两个头,另一只是猫,其他的有腿、耳朵和舌头的令人不安的问题。但这幅图像仍然引人注目。

另一个问题是它无法创建逼真的图像。Dall-E 3倾向于创造梦幻般的场景,通常的风格更像是插图而不是逼真的场景。就我个人而言,我对此没问题,因为逼真的场景往往揭示了AI图像最令人难堪的不足。但逼真的场景是一个重要的用例,我很难引导Dall-E朝这个方向努力。

我从未能得到一个令人满意的英国海军上校在帆船上的图像。Dall-E无法弄清楚人们如何拿望远镜,根本不明白六分仪是什么,在一种情况下,它在一艘船上放了12个上校,没有船员。我想要的大致意思通常在那里,但没有令人信服地组合在一起。

OpenAI的Dall-E 3是唯一一个成功渲染了一只喷火龙飞过城堡,爪子里抓着一只毛茸茸的羊的文本到图像AI,尽管它抱着羊的方式比我想象的要温柔,而且翅膀肯定有问题。

Stephen Shankland/CNET

像它的竞争对手一样,Dall-E不能计数。当我要求显示一个台球时,它正确地显示了一个8号球,但是半个绿色和半个白色的。这不是你在本地台球厅会看到的东西。

ChatGPT Plus订阅者还可以访问至少10个基于Dall-E的自定义logo生成器GPT,这些GPT在GPT商店上针对该任务进行了调整。

一次又一次,图像被这样的细节问题破坏了。但一次又一次,尽管如此,我仍然喜欢结果。爆炸的气球、圣经上准确的天使、红尾鹰、咖啡店标志——没有什么是完美的,但通常足够好。

也许我们都会集体演变出一套新的美学规则来适应AI图像,接受一些错误以换取它们的价值。如果是这样,Dall-E 3将会做得很好。
原文链接:https://www.cnet.com/tech/services-and-software/openai-dall-e-3-review-generative-ai-for-fanciful-fun-illustrations/




欢迎关注






转载、合作、加入粉丝群请联系小助理

(微信号:globalfinance007)

随手点赞👍,戳个在看

芯果
匠芯注入!链接科技成果与产业发展的有趣灵魂。
 最新文章