嘿!我是言川,欢迎阅读我的第一期AI行业周刊(11/18-11/24)~
我将用5分钟时间,带你快速了解本周AI行业动态,帮助你在碎片化的信息中获取最有用的AI资讯。
你也可以点击“听全文”功能,用播客的方式听完本期内容,让我们开始吧。
11月18日,微信公众号悄悄上线了AI音色克隆功能。
这个AI功能可以模仿作者的音色,让你能听到作者为你朗读文章的声音。
就是这个“听全文”的功能,该功能很早之前就上线了,只不过一直是通用的机械男声......
目前该功能还处于灰度测试阶段,只有部分公众号可以体验(我又没被灰度到......)
你可以下载“订阅号助手”APP,更新检查版本至2.29.1。
点开设置,如果你有“朗读音色”的选项,那么恭喜你,被微信灰度测试到了!像我就没有,啥好事都轮不上我......
所以本篇文章,你点击“听全文”,依旧是那冷冰冰的机械男声,等正式上线后我才能设置专属于我的声音。
微信真的很谨慎,在其他平台AI功能卷飞天的环境下,它才悄悄的上线了AI功能......
正如卡神(数字生命卡兹克)说的那样,微信一小步,AI一大步。因为,微信是全民级产品,而微信的AI功能普及,才是真正的让AI走入到我们普通人的生活中,它所带来的影响力是极大的。
11月20日,Suno发布了最新版V4模型,主要体现在音质方面,生成的音乐会更加的清晰和细腻。
这次更新还有一大亮点,就是这个Remaster功能,能将旧版模型生成的音乐进行音质升级。我这里放了一个示例,可以听听感受一下。
目前Suno V4模型仅开放订阅会员使用,如果你只是想体验V4模型生成的音质效果,可以进入Suno官网听其他用户创作的音乐。
这里做一个科普,Suno成立于2022年,是一款强大的AI音乐生成器,用户可以通过输入简单的文本提示词,创作出多种音乐风格,当然也包含中文歌曲生成。
同时它也被称为音乐界的“ChatGPT”,至今还未有一款AI音乐生成工具能比肩Suno,可谓是独领风骚。
如果你是从事影视方面的工作,用它生成背景音乐或音效简直不要太好用,而且作为订阅用户,可以将生成的音乐应用在商业场景中,无需担心版权风险。
当然,普通用户每日也有50积分可以免费生成音乐,大概可以生成10首歌曲。
11月20日,Glif上线一个新功能,它能够将任何Logo贴在周边产品上,而且效果非常的惊艳。
你可以点击链接在线体验:glif.app/glifs/cm3o7dfsd002610z48sz89yih
比如上传一张小米的Logo,输入提示词:Silver can with water droplets(银罐上有水滴)
或者是将Logo贴在衣服上,比如上传一张霸王茶姬的Logo,输入提示词:White T-shirt(白色T恤衫),中文也能很好的识别......真的,牛批!
试试微信的这款帽子......提示词:Black baseball cap(黑色棒球帽)
而这个功能主要是基于In-Context LoRA模型(由阿里巴巴通义实验室推出,使用Flux算法训练的Lora模型),能够在图像生成时保持人物、场景和风格的一致性,适用于多种应用场景。
目前In-Context LoRA官方开源了10个模型,对应着不同的使用场景。你可以将这些Lora模型下载,并在ComfyUI中使用它们,注意需要使用Flux工作流。
模型下载地址:huggingface.co/ali-vilab/In-Context-LoRA/tree/main
案例演示地址:github.com/ali-vilab/In-Context-LoRA
本次发布包含3个核心功能模型,模型下载地址:huggingface.co/black-forest-labs
1、使用 FLUX.1 填充进行修复和修复
FLUX.1 Fill 引入了先进的修复功能,超越了 Ideogram 2.0 等现有工具和 AlimamaCreative 的FLUX-Controlnet-Inpainting等流行的开源变体。它允许无缝编辑,与现有图像自然集成。
此外,FLUX.1 Fill 支持outpainting,使用户能够将图像扩展到原始边界之外。
2、使用 FLUX.1 Canny / Depth 进行结构调节
结构调节使用精明的边缘或深度检测来在图像转换过程中保持精确控制。通过边缘或深度图保留原始图像的结构,用户可以进行文本引导的编辑,同时保持核心构图完整。这对于重新纹理图像特别有效。
FLUX.1 Canny / Depth 有两个版本:可实现最大性能的完整模型,以及基于 FLUX.1 [dev] 的 LoRA 版本,可更轻松地开发。
3、使用FLUX.1 Redux进行图像变化和重新设计
FLUX.1 Redux 是适用于所有 FLUX.1 基本模型的适配器,用于生成图像变化。给定输入图像,FLUX.1 Redux 可以重现具有轻微变化的图像,从而可以细化给定图像。
它自然地集成到更复杂的工作流程中,通过提示解锁图像重新设计。通过我们的 API,可以通过提供图像和提示来重新设计样式。
最新型号FLUX1.1 [pro] Ultra支持该功能,允许组合输入图像和文本提示,以创建具有灵活宽高比的高质量 4 兆像素输出。
同时,ComfyUI官方已宣布支持Black Forest Labs 为 Flux.1 设计的 3 个系列新模型:Redux Adapter 、 Fill Model 、 ControlNet Models 和 LoRA (Depth 和 Canny)。
工作流下载地址:blog.comfy.org/day-1-support-for-flux-tools-in-comfyui/
11月22日,InstantX团队训练的Flux IPadapter 模型也开源了......
简单说明下IP-Adapter模型的介绍,它主要功能是通过图像提示来生成图像,能够复制参考图像的风格、构图或人物特征,下面是Flux IPadapter演示案例:
ComfyUI工作流:github.com/Shakker-Labs/ComfyUI-IPAdapter-Flux/tree/main/workflows
Flux IPadapter模型:huggingface.co/InstantX/FLUX.1-dev-IP-Adapter/tree/main
11月22日,可灵1.5模型支持运动笔刷和运镜控制,并新增标准模型。
运动笔刷:你可以在可灵 1.5 模型(图生视频)的高品质模式下,对图片使用运动笔刷,最多可涂抹选中图中的 6 个元素(人或物体等)素,额外指定静止区域,来让视频内容,有更好的运动控制及运动表现。
横屏(16:9、4:3)、竖屏(9:16、3:4)、方屏(1:1)等多种尺寸格式的图片,都支持使用「运动笔刷」生成视频,支持生成 5s 视频时长。
运镜控制:你可以在可灵 1.5 模型在图生视频的高品质模式下,设置使用运镜,支持水平运镜、垂直运镜、拉远/推进」、水平摇镜、垂直摇镜、旋转运镜」六种运镜方式。支持生成 5s 带运镜的视频。
最猛的应该是这个功能,人脸定制模型!
你可以上传多段高清视频素材,定制训练人脸模型。然后根据你的人脸生成视频,支持多种人物镜头的生成,并且还能保持一致性。(目前该功能仅开放给钻石和铂金会员用户)
可灵在AI视频生成领域的发展真的很快!自今年6月份分布以来,可灵AI已有超500万用户,累计生成超过5100万个视频和超过1.5亿张图片。
而它在商业化的进展中,也取得了不错的结果,单月流水超过了千万元,势头非常猛。我很期待未来Sora面对这一强大的对手该如何选择。
那本期我们的AI周刊到这就结束了。可能你会问,这周只有这6件AI资讯吗?当然不可能,如果真的把大大小小事件都放出来介绍,那么你可能会在阅读中,花费10-20分钟甚至更久。
但是你真的需要看这么多资讯吗?我认为的资讯专栏应该是精简、有深度的内容,才能真正的帮助你快速了解行业动态。时间是很宝贵的,我希望你不用在我的周刊文章中花费很长的时间阅读。
所以,就有了这一期AI周刊(也是第一期)。当然这次的周刊也是一次尝试,以精简+深度的方式来呈现。大家的观感也不能保证达到预期,如果你对本篇周刊有任何的建议或看法,可以在评论区留言,我主打的就是一个听劝,感谢你的支持!
--------------------
往期周刊导读
感谢观看至此,如果你喜欢今天的内容,并且觉得它对你有所启发或帮助,随手给我点个赞、在看,或转发到朋友圈吧,如果想要不错过我的每一次更新,可以将我的公众号设为星标⭐~朋友们,下次再会。