Meta:悄悄发布多款模型、研究和数据集

科技   2024-06-19 02:49   广东  


长话短说


大半夜的

Meta 发货 6 款


由 FAIR 团队呈现

*FAIR: Fundamental AI Research

Meta Chameleon

多模态模型,7B/34B


Multi-Token Prediction

多词预测模型


JASCO

文本生成音乐模型


AudioSeal

AI 语音检测


PRISM

AI 反馈数据集


“DIG In”

人文地理差异评估方法



更详细的如下




Meta Chameleon

“变色龙”模型


一款多模态模型,能同时处理文本和图像。目前发布 Chameleon 7B 和 34B 模型,供研究使用,支持混合输入(文本+图像),输出文本。


例如,输入一张海滩照片,Chameleon 能生成“夕阳下的金色沙滩,海浪轻拍海岸”这样的描述;输入“森林里的小木屋”,再配上几张树木、房子的图片,它就能生成一段描述森林小木屋的文字。



模型:

https://ai.meta.com/resources/models-and-libraries/chameleon-downloads/?gk_enable=chameleon_web_flow_is_live




Multi-Token Prediction

多词预测


一种新的语言模型训练方法——多标记预测,旨在提高模型能力和训练效率。该方法训练模型一次预测多个单词,而非传统的一次一个单词


例如,在写代码时,输入“print("Hello")”,就能预测接下来可能要输入的内容,比如“.upper()”或者“+ name”。



论文:

https://arxiv.org/abs/2404.19737


模型:

https://huggingface.co/facebook/multi-token-prediction




JASCO


将文本提示转化为音乐,并支持和弦、节拍等条件输入,实现对生成音乐的精细控制。例如,输入“欢快的流行歌曲,4/4拍,C大调”,JASCO就能生成一段符合要求的音乐。



论文:

https://arxiv.org/abs/2406.10970


代码:

https://github.com/facebookresearch/audiocraft




AudioSeal


一款音频水印技术,能精准识别AI生成的语音内容,防止滥用。例如,在一段播客中,AudioSeal可以标记出哪些部分是由AI生成的。该技术已应用于SeamlessM4T v2、Audiobox等产品中,Meta还将发布图像、语音和文本模型的水印方法。




代码

https://github.com/facebookresearch/audioseal




PRISM数据集


Meta 与外部伙伴合作发布了 PRISM 数据集,包含来自全球 1500 名参与者的对话数据和偏好,用于改进大型语言模型。


例如,通过分析不同文化背景的用户对同一问题的回答,模型可以学习如何生成更具包容性的回复。该数据集旨在提高模型的对话多样性、偏好多样性和社会效益。



论文:

https://arxiv.org/abs/2404.16019


数据:

https://huggingface.co/datasets/HannahRoseKirk/prism-alignment




DIG In

多词预测


DIG In 指标可被用于评估文本生成图像模型中存在的地理差异。例如,输入“传统婚礼”,模型是否会生成不同地域的婚礼图片。


此外,他们还进行了大规模注释研究,收集了大量关于图像吸引力、相似性、一致性等方面的反馈,以改进模型。


代码:

https://github.com/facebookresearch/DIG-In


标注:

https://github.com/facebookresearch/DIG-In/blob/main/task2_geode.csv


OpenAI

要努力了

赛博禅心
拜AI古佛,修赛博禅心
 最新文章