小互AI日报：Meta AI研究员：网络上的文本都是“狗屎”Llama3全部使用合成数据、Mistral发布123B开源模型…

文摘 2024-07-25 23:16 安徽

💨 Hi~ 欢迎来到 7.25 XiaoHu.AI 的日报！

______________

1、PixVerse 发布 PixVerse V2版本的视频模型

PixVerse V2 版本的视频模型带来了多项升级：

模型升级：更好的提示遵循，支持直接生成最长 8 秒的视频，提供更大的创作空间。
改进的质量：显著提升了视频的分辨率、细节和运动动态。
一致性：在 1 到 5 个视频片段中保持风格、主体和场景的一致性，增强最终视频的连贯性。

🔗 详细：https://xiaohu.ai/p/11698

2、可灵的国际版 Kling 1.0 发布和收费

可灵的国际版 Kling 1.0 正式全球发布！

任何电子邮件地址都可以让您进入，无需手机号码！每日登录可获得 66 个免费积分。

可灵开始收费了

最低档 66 元/月，促销期间为 33 元/月，每月 660 灵感值，每个视频消耗 10 个灵感值，能生成 66 个视频。每天登录送 66 灵感值，当日不用自动清零。

同时模型做了升级：

画面质量提升：改善画面构图、色调及美观性。
运动表现提升：增强运动幅度及准确性。

会员每月可享受去水印、高表现模式、视频延长、大师运镜等专属功能。

🔗 网页：https://klingai.kuaishou.com

3、Adobe 发布 Firefly Vector AI 模型

Adobe 发布Firefly Vector AI 模型，为 Illustrator 和 Photoshop 推出更多生成式 AI 功能。

Adobe Illustrator 和 Photoshop 推出了一些新的工具和生成式 AI 功能。此次更新最引人注目的功能来自 Adobe 最新的 Firefly Vector AI 模型，该模型今天开始公开测试。

这个新的 Firefly Vector 模型为 Illustrator 带来了诸多新功能，比如生成形状填充 (Generative Shape Fill)，用户可以通过描述性文本提示为形状添加详细的矢量图形。

更新后的模型还改进了文本到图案 (Text to Pattern) 的测试功能，可以用来创建可扩展的自定义矢量图案，如壁纸；

还有样式参考 (Style Reference)，能够生成与现有样式相匹配的输出。

新的 Mockup 工具允许您将矢量艺术品放置在几乎任何带有空白表面的模型图像上。这是一个 3 次点击的过程，您还可以随时进行非破坏性编辑。

🔗 详细：https://xiaohu.ai/p/11712

4、X 平台新功能发布

X 平台新增了一些新功能，当鼠标放在某个头像上时，会显示“更多账号相关信息”，点击可以呼出 Grok 对该博主进行进一步问答了解。同时，在 X 平台上选中任何文字，也可随时向 Grok 提问。

有趣的是，它竟然知道我账号被冻结过，不过后续的回答就有点不太智能了。

6、OutfitAnyone：支持任何服装和任何人的高质量虚拟试穿技术

此项目由阿里巴巴开发。传统的虚拟试穿方法在处理不同体型和姿势时，衣物容易变形。OutfitAnyone 通过双流条件扩散模型，有效解决了这个问题。

🔗 详细：https://xiaohu.ai/p/11732

7、Open-Sora Plan v1.2 发布

引入新的 3D 全注意力架构，提升了对物理世界的理解能力，改进了从文本生成视频的能力。通过新架构和优化的 VAE 结构，提升了视频生成的清晰度和一致性。

新的 3D 全注意力架构解决了之前版本无法同时处理空间和时间维度的问题，优化后的 CausalVideoVAE 结构提高了模型的推理速度和性能。

Open-Sora 致力于复刻 OpenAI Sora 模型...

8、Meta AI 研究员：网络上的文本基本都是“狗屎”

Llama 3 没有使用任何人类书写的答案，全是合成数据。Latent Space 采访了 Meta AI 研究员 Thomas Scialom，他领导了 Llama2 和现在的 Llama3 训练工作。

他们详细讨论了 Llama 3.1 预训练（如合成数据、数据管道、缩放法则等）和后训练（如强化学习人类反馈 (RLHF) 与指令调优、评估、工具调用）方面的内容。

据 Thomas Scialom：

合成数据：

我的直觉是，网络上的文本都是狗屎，在这些标记上进行训练是在浪费计算量。
Llama 3 后期训练没有使用任何人类书写的答案，而是完全依赖于 Llama 2 生成的纯合成数据。

合成数据的具体应用：

代码生成：使用三种方法生成代码合成数据，包括代码执行反馈、编程语言翻译和文档反向翻译。
数学推理：借鉴了“让我们逐步验证"作者的研究，进行合成数据生成。
多语言处理：通过 90% 的多语言令牌继续预训练，收集高质量的人类注释。
长文本处理：依赖于合成数据来处理长文本的问答、长文档摘要和代码库推理。
工具使用：在 Brave 搜索、Wolfram Alpha 和 Python 解释器上训练进行单次、嵌套、并行和多轮函数调用。

强化学习与人类反馈（RLHF）：

广泛使用人类偏好数据进行模型训练。
强调了人类在两者之间进行选择（如选择两首诗中更喜欢哪一首）而非创作（从零开始写一首诗）的能力。

Meta 已经在 6 月份开始训练 Llama 4，听起来一大重点将是围绕智能体展开。

多模态版本将有更多参数，稍后发布。

🔗 详细：https://xiaohu.ai/p/11770

9、Mistral AI 发布最新一代开源模型：Mistral Large 2

Mistral AI 宣布了其旗舰模型的最新一代——Mistral Large 2。与前代相比，Mistral Large 2 在代码生成、数学和推理方面显著提升，并提供更强的多语言支持和先进的函数调用能力。

该模型具备 128k 的上下文窗口，支持多种语言和 80 多种编程语言。Mistral Large 2 设计用于单节点推理，适合长上下文应用，拥有 1230 亿参数。

多语言支持：设计时即支持多种语言。
编程能力：在 80 多种编程语言上进行了训练，如 Python、Java、C、C++、JavaScript 和 Bash，还包括 Swift 和 Fortran 等特定语言。
代理能力：具备最佳的代理功能，支持本地函数调用和 JSON 输出。
高级推理：拥有最先进的数学和推理能力。
大上下文窗口：提供 128k 的上下文窗口。

测试成绩：

MMLU (大规模多语言理解测试): 84.0%
Human Eval (编程能力测试): 92%
GSM8K (数学基准测试): 93%

🔗 详细：https://xiaohu.ai/p/11812

10、Stability AI 宣布推出 Stable Video 4D（SV4D）

Stability AI 宣布推出 Stable Video 4D（SV4D），这是一款创新模型，用户可以上传单个视频并生成八个新角度的动态新视角视频。

与以往需要从图像扩散模型、视频扩散模型和多视角扩散模型中取样的方法不同，SV4D 能够同时生成多个新视角视频，大大提高了空间和时间轴上的一致性。这不仅确保了多个视角和时间戳中对象外观的一致性，还实现了更轻量级的 4D 优化框架，无需使用多个扩散模型进行繁琐的得分蒸馏采样（SDS）。

Stable Video 4D 可以在大约 40 秒内生成跨越 8 个视角的 5 帧视频，整个 4D 优化过程大约需要 20 到 25 分钟。该技术在游戏开发、视频编辑和虚拟现实领域具有广泛的应用前景。专业人员可以利用此技术从多个视角可视化对象，增强产品的真实感和沉浸感。

🔗 详细：https://xiaohu.ai/p/11780

______________

End.

感阅

谢读

点赞，关注关注关注！

小互AI

XiaoHu.AI 学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，获取最新AI资讯、案例、项目、教程。学习如何使用AI...

最新文章

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

中学生都能看懂：10 分钟搞懂ChatGPT的工作原理...

深度评测| 豆包全新视觉理解模型能力强到飞起能跨模态和你一起协作

真正实现说话就能PS图片 Gemini 2.0混合多模态能力展示

OpenAI 新功能 Project 评测及教程

AI 进入智能代理时代：一文深度了解Google 最新 AI 模型 Gemini 2.0模型到底有多强

教程：通过AI生成可爱中文图像海报和手绘菜单路边广告设计作坊要倒闭

Runway 又更新了现在可以将你的表演、声音转移到其他视频角色身上

轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文

微软推出炸裂的Copilot Vision 功能可实时监控你的上网行为随时提供AI帮助

更快、更聪明 OpenAI发布了正式版o1和o1 Pro推理模型（内涵发布会中文视频完整版）

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？

Google开发出能像Photoshop一样将视频智能分解成多个图层的视频编辑技术

评测教程 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

评测 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统

GetPickle AI：克隆一个你的替身让他帮你开会而你可以逍遥自在...

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

OpenAI 官方发布： ChatGPT 学生写作指南指导学生如何正确使用GPT

炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

ChatGPT 帮我制定护肤方案 2个月让我的皮肤变成了这样...

Siri 可以实时读取你屏幕信息并执行操作苹果正式推出集成 Siri 和 Apple Intelligence新框架

字节跳动发布只需你的一张照片即可将任意视频角色的表情和动作转移到你身上

一句话手机自动帮你点外卖、订酒店买东西智谱 AI 这次真的是国际领先了

Runway 新工具：人人都可拍动画片可以把视频转换成任意风格虚拟角色动画并且保持表情语音口型同步

Anthropic 发布一项炸裂的新功能 AI 可以模仿人类访问电脑帮你自动干活

让美女转身成为可能 Adobe 推出全新AI 工具可以像旋转3D 对象一样旋转 2D 图像

全球首创桌面双轮足式AI机器人接入了ChatGPT 能跑、能看、能说、倒不了...

让你的蓝牙耳机永不断电通过你的“皮肤来供电” 让可穿戴设备没有电池也能工作

教你如何激活GPTSearch 并将 Chrome 浏览器默认搜索引擎替换成 GPTSearch

学习“神器”来了！把任何书本上的图表、公式变成互动实验，物理知识轻松掌握！

超好玩的创意图像模型：用一张卡通图片总结4张真实人物照片

Anthropic CEO ：5到10年内 AI将助力人类扫除几乎所有疾病人类寿命有望翻倍达到150岁

超完整：特斯拉We Robot 发布会全纪录：完全无人驾驶出租车、Optimus 机器人、Robovan（机器人巴士）

小白也能开发应用：AI 帮你自动写代码自动运行并自动部署而且全部在浏览器中完成

哈佛大学俩学生开发出一种 AI 眼镜看你一眼即可扒光你的所有个人信息

OpenAI 旧金山开发者大会发布五大创新功能实时语音、视觉微调、模型蒸馏...

3.17亿粉丝全球第一网红 MRBEAST 公司内部培训手册曝光教你如何制造爆款内容

通过AI聊天直接一键生成你的专属古诗词卡片（附 Prompt及教程）

使用AI聊天一键生成高颜值社交名片全解析（附 Prompt及教程）

Google发布全球 185 个各大企业的生成式 AI 实际应用落地案例

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心秘密激励模型学习是培养 AGI 的最佳方式

无需开颅手术将 ChatGPT 整合到脑机系统中控制电脑等各种设备

小互AI 日报：字节跳动开发出端到端语音同步翻译系统、卡内基梅隆大学教授：“人类需要进入高度戒备状态！”

Perplexity 联合创始人兼产品主管揭秘该公司借助AI形成的独特产品开发方法

小互AI日报：复旦大学开发出类似GPT 4o的端到端语音对话模型、Udio V1.5版中文音乐提升、Bing推出生成式搜索...

小互AI日报：Meta AI研究员：网络上的文本都是“狗屎”Llama3全部使用合成数据、Mistral发布123B开源模型…

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉