首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Meta：悄悄发布多款模型、研究和数据集

科技 2024-06-19 02:49 广东

长话短说

大半夜的

Meta 发货 6 款

由 FAIR 团队呈现

*FAIR: Fundamental AI Research

Meta Chameleon

多模态模型，7B/34B

Multi-Token Prediction

多词预测模型

JASCO

文本生成音乐模型

AudioSeal

AI 语音检测

PRISM

AI 反馈数据集

“DIG In”

人文地理差异评估方法

更详细的如下

Meta Chameleon

“变色龙”模型

一款多模态模型，能同时处理文本和图像。目前发布 Chameleon 7B 和 34B 模型，供研究使用，支持混合输入（文本+图像），输出文本。

例如，输入一张海滩照片，Chameleon 能生成“夕阳下的金色沙滩，海浪轻拍海岸”这样的描述；输入“森林里的小木屋”，再配上几张树木、房子的图片，它就能生成一段描述森林小木屋的文字。

模型：

https://ai.meta.com/resources/models-and-libraries/chameleon-downloads/?gk_enable=chameleon_web_flow_is_live

Multi-Token Prediction

多词预测

一种新的语言模型训练方法——多标记预测，旨在提高模型能力和训练效率。该方法训练模型一次预测多个单词，而非传统的一次一个单词。

例如，在写代码时，输入“print("Hello")”，就能预测接下来可能要输入的内容，比如“.upper()”或者“+ name”。

论文：

https://arxiv.org/abs/2404.19737

模型：

https://huggingface.co/facebook/multi-token-prediction

JASCO

将文本提示转化为音乐，并支持和弦、节拍等条件输入，实现对生成音乐的精细控制。例如，输入“欢快的流行歌曲，4/4拍，C大调”，JASCO就能生成一段符合要求的音乐。

论文：

https://arxiv.org/abs/2406.10970

代码：

https://github.com/facebookresearch/audiocraft

AudioSeal

一款音频水印技术，能精准识别AI生成的语音内容，防止滥用。例如，在一段播客中，AudioSeal可以标记出哪些部分是由AI生成的。该技术已应用于SeamlessM4T v2、Audiobox等产品中，Meta还将发布图像、语音和文本模型的水印方法。

代码：

https://github.com/facebookresearch/audioseal

PRISM数据集

Meta 与外部伙伴合作发布了 PRISM 数据集，包含来自全球 1500 名参与者的对话数据和偏好，用于改进大型语言模型。

例如，通过分析不同文化背景的用户对同一问题的回答，模型可以学习如何生成更具包容性的回复。该数据集旨在提高模型的对话多样性、偏好多样性和社会效益。

论文：

https://arxiv.org/abs/2404.16019

数据：

https://huggingface.co/datasets/HannahRoseKirk/prism-alignment

DIG In

多词预测

DIG In 指标可被用于评估文本生成图像模型中存在的地理差异。例如，输入“传统婚礼”，模型是否会生成不同地域的婚礼图片。

此外，他们还进行了大规模注释研究，收集了大量关于图像吸引力、相似性、一致性等方面的反馈，以改进模型。

代码：

https://github.com/facebookresearch/DIG-In

标注：

https://github.com/facebookresearch/DIG-In/blob/main/task2_geode.csv

OpenAI

要努力了

http://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247489452&idx=1&sn=926b7f35cdd5aa129806c65da6768440

拜AI古佛，修赛博禅心

最新文章

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

史诗更新！1080 可跑的 Sora，可商用！超大杯 CogVideoX 5B 开源！GLM-Flash 免费！

大厂山寨 Cursor，不如做好邮箱

征集｜ComfyUI 全球社区峰会 AI 展：新艺术宣言

你需要的不是智能体，而是工作流

谷歌前 CEO：「盗用内容也不是不行」

看完这篇，你也能做 AI 搜索：论「结构化输出」

系统性「造人」：论 AI 拟人的实现

OpenAI 开发者大会，现开放报名

全网首发：智谱「Sora」此刻开源，单卡可跑可调，附训练细节

历史新高：24Q2，美国近期 AI 项目融资，总计 122 亿美金

并非25亿收购：谷歌与 C.AI 交易细节

学外企员工，「中英夹杂」记 word

入口之战：AI 时代的「二维码」，在哪里？

ChatGPT Search 正开放内测，附申请地址

剑指 Meta：Mistral Large2 凌晨开源，媲美 Llama3.1

最大405B：Llama-3.1 发布，第一时间详解

我做了两个 JSON：涵盖各模型接口信息

GPT-4o迷你版发布，比 3.5 更便宜，但有计费 Bug

大模型真实速度一览（附：测试脚本）

对于 AI & AGI，我有 3 个问题

WAIC 的这几天，咱从业者们聚一聚？

大模型 API 文档一览：有的简洁易用，有的乱七八糟

全军覆没：国产大模型，都没做好 OpenAI 兼容

AI 画图正经入门：ComfyUI 的基础七课

MarsCode：AI 在线 IDE，很好用

OpenAI 收购 Multi，一款协作工具

第一批背靠 OpenAI 的公司，已经倒下了

Anthropic：Claude 3.5 发布，更快更强，还便宜

从 OpenAI 发布的 36 个实践，窥探真实的 AI 产业机会

Meta：悄悄发布多款模型、研究和数据集

Runway：稳定、可控的视频方案 Gen-3 Alpha

Perplexity 怎么读？Qwen 又怎么读？常见 AI 名词发音一览

Luma：发个AI，比 Sora 真实、连贯、迅速

SD 3：已开源，附即用方案，附测试对比

剧透：扣子正上线「大模型竞技场」

Apple：属于每个人的 AI，在这里

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉