💨 Hi~ 欢迎来到 7.25 XiaoHu.AI 的日报!
______________
1、PixVerse 发布 PixVerse V2版本的视频模型
PixVerse V2 版本的视频模型带来了多项升级:
模型升级:更好的提示遵循,支持直接生成最长 8 秒的视频,提供更大的创作空间。 改进的质量:显著提升了视频的分辨率、细节和运动动态。 一致性:在 1 到 5 个视频片段中保持风格、主体和场景的一致性,增强最终视频的连贯性。
🔗 详细:https://xiaohu.ai/p/11698
2、可灵的国际版 Kling 1.0 发布和收费
可灵的国际版 Kling 1.0 正式全球发布!
任何电子邮件地址都可以让您进入,无需手机号码!每日登录可获得 66 个免费积分。
可灵开始收费了
最低档 66 元/月,促销期间为 33 元/月,每月 660 灵感值,每个视频消耗 10 个灵感值,能生成 66 个视频。每天登录送 66 灵感值,当日不用自动清零。
同时模型做了升级:
画面质量提升:改善画面构图、色调及美观性。 运动表现提升:增强运动幅度及准确性。
会员每月可享受去水印、高表现模式、视频延长、大师运镜等专属功能。
🔗 网页:https://klingai.kuaishou.com
3、Adobe 发布 Firefly Vector AI 模型
Adobe 发布Firefly Vector AI 模型,为 Illustrator 和 Photoshop 推出更多生成式 AI 功能。
Adobe Illustrator 和 Photoshop 推出了一些新的工具和生成式 AI 功能。此次更新最引人注目的功能来自 Adobe 最新的 Firefly Vector AI 模型,该模型今天开始公开测试。
这个新的 Firefly Vector 模型为 Illustrator 带来了诸多新功能,比如生成形状填充 (Generative Shape Fill),用户可以通过描述性文本提示为形状添加详细的矢量图形。
更新后的模型还改进了文本到图案 (Text to Pattern) 的测试功能,可以用来创建可扩展的自定义矢量图案,如壁纸;
还有样式参考 (Style Reference),能够生成与现有样式相匹配的输出。
新的 Mockup 工具允许您将矢量艺术品放置在几乎任何带有空白表面的模型图像上。这是一个 3 次点击的过程,您还可以随时进行非破坏性编辑。
🔗 详细:https://xiaohu.ai/p/11712
4、X 平台新功能发布
X 平台新增了一些新功能,当鼠标放在某个头像上时,会显示“更多账号相关信息”,点击可以呼出 Grok 对该博主进行进一步问答了解。同时,在 X 平台上选中任何文字,也可随时向 Grok 提问。
有趣的是,它竟然知道我账号被冻结过,不过后续的回答就有点不太智能了。
6、OutfitAnyone:支持任何服装和任何人的高质量虚拟试穿技术
此项目由阿里巴巴开发。传统的虚拟试穿方法在处理不同体型和姿势时,衣物容易变形。OutfitAnyone 通过双流条件扩散模型,有效解决了这个问题。
🔗 详细:https://xiaohu.ai/p/11732
7、Open-Sora Plan v1.2 发布
引入新的 3D 全注意力架构,提升了对物理世界的理解能力,改进了从文本生成视频的能力。通过新架构和优化的 VAE 结构,提升了视频生成的清晰度和一致性。
新的 3D 全注意力架构解决了之前版本无法同时处理空间和时间维度的问题,优化后的 CausalVideoVAE 结构提高了模型的推理速度和性能。
Open-Sora 致力于复刻 OpenAI Sora 模型...
Llama 3 没有使用任何人类书写的答案,全是合成数据。Latent Space 采访了 Meta AI 研究员 Thomas Scialom,他领导了 Llama2 和现在的 Llama3 训练工作。
他们详细讨论了 Llama 3.1 预训练(如合成数据、数据管道、缩放法则等)和后训练(如强化学习人类反馈 (RLHF) 与指令调优、评估、工具调用)方面的内容。
据 Thomas Scialom:
合成数据:
我的直觉是,网络上的文本都是狗屎,在这些标记上进行训练是在浪费计算量。 Llama 3 后期训练没有使用任何人类书写的答案,而是完全依赖于 Llama 2 生成的纯合成数据。
合成数据的具体应用:
代码生成:使用三种方法生成代码合成数据,包括代码执行反馈、编程语言翻译和文档反向翻译。 数学推理:借鉴了“让我们逐步验证"作者的研究,进行合成数据生成。 多语言处理:通过 90% 的多语言令牌继续预训练,收集高质量的人类注释。 长文本处理:依赖于合成数据来处理长文本的问答、长文档摘要和代码库推理。 工具使用:在 Brave 搜索、Wolfram Alpha 和 Python 解释器上训练进行单次、嵌套、并行和多轮函数调用。
强化学习与人类反馈(RLHF):
广泛使用人类偏好数据进行模型训练。 强调了人类在两者之间进行选择(如选择两首诗中更喜欢哪一首)而非创作(从零开始写一首诗)的能力。
Meta 已经在 6 月份开始训练 Llama 4,听起来一大重点将是围绕智能体展开。
多模态版本将有更多参数,稍后发布。
🔗 详细:https://xiaohu.ai/p/11770
9、Mistral AI 发布最新一代开源模型:Mistral Large 2
Mistral AI 宣布了其旗舰模型的最新一代——Mistral Large 2。与前代相比,Mistral Large 2 在代码生成、数学和推理方面显著提升,并提供更强的多语言支持和先进的函数调用能力。
该模型具备 128k 的上下文窗口,支持多种语言和 80 多种编程语言。Mistral Large 2 设计用于单节点推理,适合长上下文应用,拥有 1230 亿参数。
多语言支持:设计时即支持多种语言。 编程能力:在 80 多种编程语言上进行了训练,如 Python、Java、C、C++、JavaScript 和 Bash,还包括 Swift 和 Fortran 等特定语言。 代理能力:具备最佳的代理功能,支持本地函数调用和 JSON 输出。 高级推理:拥有最先进的数学和推理能力。 大上下文窗口:提供 128k 的上下文窗口。
测试成绩:
MMLU (大规模多语言理解测试): 84.0% Human Eval (编程能力测试): 92% GSM8K (数学基准测试): 93%
🔗 详细:https://xiaohu.ai/p/11812
10、Stability AI 宣布推出 Stable Video 4D(SV4D)
Stability AI 宣布推出 Stable Video 4D(SV4D),这是一款创新模型,用户可以上传单个视频并生成八个新角度的动态新视角视频。
与以往需要从图像扩散模型、视频扩散模型和多视角扩散模型中取样的方法不同,SV4D 能够同时生成多个新视角视频,大大提高了空间和时间轴上的一致性。这不仅确保了多个视角和时间戳中对象外观的一致性,还实现了更轻量级的 4D 优化框架,无需使用多个扩散模型进行繁琐的得分蒸馏采样(SDS)。
Stable Video 4D 可以在大约 40 秒内生成跨越 8 个视角的 5 帧视频,整个 4D 优化过程大约需要 20 到 25 分钟。该技术在游戏开发、视频编辑和虚拟现实领域具有广泛的应用前景。专业人员可以利用此技术从多个视角可视化对象,增强产品的真实感和沉浸感。
🔗 详细:https://xiaohu.ai/p/11780
______________
点赞,关注关注关注!