还记得2021年OpenAI推出DALL-E那天吗?当时大家对文字生成图片的概念一头雾水,但也好奇心爆棚。而接下来几年,AI图像生成行业以惊人的速度增长,如今已经变成一个巨大产业,让各大广告公司兴奋得摩拳擦掌。
从千万到百亿,AI图像生成器的野心
根据最新研究,全球AI图像生成市场在2023年的营收达到了3.496亿美元,并有望在2030年达到10.81亿美元的规模。很多公司已经在用这些AI图像生成器来制作广告,以此节省成本。不信?你可能见过Coca-Cola的广告,又或是某些AI虚拟“网红”在为品牌代言。用途广泛得让人眼花缭乱,就连亚马逊也加入了AI生成图像的行列,在其广告中使用这些看起来几乎可以以假乱真的虚拟模特。
亚马逊印度站正在用AI生成的图片来打广告
在这个前景广阔的市场中,有Midjourney、Adobe、OpenAI、Stability AI、Google、微软、Leonardo AI、Runway AI等许多公司纷纷入局。直到2024年7月,AI图像生成领域的领头羊还包括Midjourney V6.1、OpenAI的DALL-E 3,以及Stability AI的开源Stable Diffusion模型。
黑马FLUX.1横空出世
但这一切在2024年8月1日被打破,一家名叫Black Forest Labs的初创公司推出了FLUX.1,令许多业内专家都大跌眼镜,而一些头部AI图像生成公司则感到十分不安。为啥呢?因为FLUX.1不仅能够生成最逼真的图像,而且它是开源的!没错,开源的!想象一下,生成超级精致的AI图像,而你不必花大价钱。那些闭源、收费的老牌公司要坐不住了。
这款“新AI图像生力军”FLUX.1的背后,是原先开发Stable Diffusion以及发明潜在扩散(latent diffusion)技术的团队。公司总部位于德国,并成功获得了3100万美元的种子轮融资,能不让人瞠目结舌吗?
FLUX.1的三大型号
FLUX.1目前有三个主要型号,它们分别是:
FLUX.1 Pro
FLUX.1 Dev
FLUX.1 Schnell
这是旗舰模型,以卓越的提示词理解能力、画面质量、图像细节和输出多样性著称。它使用先进的AI技术,包括扩散模型和Transformer架构,能生成高度反映复杂文本提示的高质量图像。主要通过API提供,适合商业应用,是专业用途的不二之选。
FLUX.1 Pro的“浓缩版”,专为非商业用途设计。虽然相比Pro,它的效率更高但尺寸更小,依旧保持了相似的图像质量和提示词理解力。这个模型是开源的,可以供个人和研究使用,使用上没有商业限制。
FLUX家族中的“速度之王”,专为本地开发和个人使用优化。它在Apache 2.0许可证下开放,适合那些想要快速实验AI图像生成、但不想受制于商业授权的用户。该模型优先考虑速度和效率,适合快速原型和个人项目。
如何使用FLUX.1模型?
访问FLUX.1模型的最佳途径就是去Hugging Face,一个致力于自然语言处理(NLP)和机器学习的知名AI公司和社区平台。Hugging Face现已成为AI社区的中心,尤其是那些从事语言相关AI任务的研究者们的天堂。
在Hugging Face平台上,你可以找到FLUX.1 DEV的空间,输入提示词并运行生成图片。然而,使用Hugging Face也有一个问题,就是使用频率有限,因为它允许所有人访问,这意味着等待时间有时可能会很长。
为了解决这些问题,Black Forest Labs与一些合作伙伴建立了合作,比如fal.ai、replicate、Freepik等平台。有免费和付费计划可供选择,你可以根据自己的需求来选择。对于我来说,我选了Premium订阅,能使用所有FLUX.1的模型,费用也相对划算。
Freepik上可以使用FLUX.1的所有模型
FLUX.1的“画质爆表”到底有多厉害?
别光听我说,我来给你展示几个生成的例子。比如使用FLUX.1 Pro生成的一些电影场景,你可以看到印度裔女孩与未来机器互动的场景,背景中复杂的机器设计灵感来源于H.R. Giger和艾舍尔,还融合了斯坦利·库布里克电影中的荒诞元素。你能想象到的复杂场景和细节,FLUX.1一次搞定。
对于AI图像生成爱好者们来说,文字渲染的痛点可谓刻骨铭心。但使用FLUX.1,你就再也不需要为此操心了,任何你想在图像中展示的文字,只要输入提示词,它就能原封不动地呈现出来。
Midjourney、Leonardo和FLUX.1的对比之战
来看看这三款模型生成的同一提示词下的图像:一个西班牙老奶奶在乡村家中的肖像。Midjourney的版本细腻,Leonardo AI的Lightning XL也不差,但FLUX.1 Pro生成的图像往往更加真实,细节甚至比Midjourney更丰富。
再来看FLUX.1 Dev和Midjourney生成的一张派对自拍。
Dev版只是FLUX.1的“家庭版”,却能与Midjourney相媲美,这真是让人刮目相看。
场景插图——让想象无限扩展
利用FLUX.1 Pro生成的一些插图,像是以“恐怖”为主题的中世纪城堡场景,或者以“太空探索”为主题的火星登陆画面,展示了如何将文字与场景结合,轻松创造引人注目的内容。不论是社交媒体推广还是产品宣传,这种视觉冲击力都很难被忽视。
家里拍张照片都能不“真实”了
还有个好玩的场景:用FLUX.1生成了一张老爷爷在客厅自拍的照片,手里举着纸牌,上面写着“我不是真的”。这种“手持认证”的场景,银行和一些在线验证网站爱用来防假人,而如今AI生成这种场景也是轻而易举。标题中的那张图也是用这个模型生成的,稍作了一些改动。
每天,AI图像生成工具都在不断改进,生成的图像也越来越难以辨别真假。许多行业早已利用这些工具开始赚钱,而广告公司和社交媒体网红们也在享受着AI图像的红利。到2030年,这个行业究竟会不会突破十亿美元大关?让我们拭目以待。