三连发！1.7B小模型把大厂干懵了~

学术 2024-11-04 11:55 湖北

周末，huggingface、meta、amd 均开源了SLM，最优秀的是huggingface家的smolLm2，同规模能打过qwen2.5、llama3.2

AMD-OLMO系列

hf: https://huggingface.co/collections/amd/amd-olmo-6723e7d04a49116d8ec95070

OLMO 完全开源系列，AMD-OLMo 是由 AMD 在 AMD Instinct™ MI250 GPU 上从头开始训练的 1B 语言模型系列。所使用的训练代码基于 OLMo。发布了预训练模型、监督微调模型和 DPO 对齐模型，具体如下：

AMD-OLMo-1B：在 Dolma v1.7 的一个子集上预训练，该子集包含 1.3 T token。
AMD-OLMo-1B-SFT：在 Tulu V2 数据集上进行监督微调（第一阶段），然后在 OpenHermes-2.5、WebInstructSub 和 Code-Feedback 数据集上进行（第二阶段）。
AMD-OLMo-1B-SFT-DPO：在 UltraFeedback 数据集上使用直接偏好优化（DPO）与人类偏好对齐。

具体效果不贴了，OLMO系列的模型对标的是tinyllama这些

Huggingface-SmolLM2系列

hf: https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

SmolLM2 是一款紧凑型语言模型家族，提供三种规模：135M, 360M，1.7B参数。它们能够解决各种任务，同时足够轻量，可在设备上运行。

1.7B 版本在指令遵循、知识、推理和数学方面相较于其前身 SmolLM1-1.7B 取得了显著进步。它使用了 11T 标记进行训练，数据集组合包括 FineWeb-Edu、DCLM、The Stack，以及我们精心制作的新的数学和编码数据集，这些数据集将很快发布。我们通过使用公共数据集和自制的精心制作的数据集进行监督微调（SFT）来开发指令版本。然后，我们应用了直接偏好优化（DPO）和 UltraFeedback。

效果：

Meta-MobileLM系列

hf: https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
paper: https://arxiv.org/pdf/2402.14905

MobileLLM 是一种自回归语言模型，它利用优化的 Transformer 架构，专门为资源受限的设备应用而设计。MobileLLM 集成了多项关键技术，包括：(1) SwiGLU activation function, (2) deep and thin architectures, (3) embedding sharing, (4) grouped-query attention. 。MobileLLM-125M/350M 在零样本常识推理任务上，相较于之前的 125M/350M SoTA 模型，实现了 2.7%/4.3% 的准确率提升。在我们的更新版本中，我们进一步证明了我们的设计理念能够有效扩展到更大的模型，MobileLLM-600M/1B/1.5B 模型取得了 SoTA 结果。

这里对比的也是一些老模型，训练耗时如下：

http://mp.weixin.qq.com/s?__biz=MzkyOTU5NzY1Mw==&mid=2247489792&idx=1&sn=59eb73da9103976dedf0872173cde89c

NLP前沿

一手ai news分享 \x26amp; 热点paper解读

最新文章

测试时训练(TTT)太强了！

大模型也能"反悔"了！

Merkle树+RAG，Cursor的秘密曝光!

GraphRAG进化，效率翻倍！

8个月炼出好"钢"，Steel-LLM开源了~

OpenAI发布GPT学习法则~

465次实验炸出大模型量化真相

Qwen2.5.1 Coder系列开源来袭！冲！

一篇大模型RAG最新综述

解密o1，六大推理秘诀大曝光！

GraphRAG 0.4来袭：增量更新+DRIFT，起飞~

Llama 3退位，腾讯Hunyuan强势登顶

文本分块的天花板来了~

三连发！1.7B小模型把大厂干懵了~

给RAG装上眼睛，性能暴涨39%！

AI助攻SCI，这招太强了

KAG来了，RAG慌了！

传统RAG凉凉？多模态RAG带来工业级革命

AutoRAG开源：RAG界的AutoML终于来了！

智谱大气！首个语音到语音国产大模型开源

大模型数学能力翻车实锤！Apple新研究暴露真相~

prompt要自己写自己了！大厂扎堆放大招~

Claude昨夜王炸！新模型暴打o1，还能玩电脑~

RAG遇上知识冲突，Google祭出终极大招~

向o1看齐，google开源RAG推理扩展，提升近60%

微软开源，CPU推理100B模型，速度飞起~

Llama3 太炸裂了！远超过去的体验！

英伟达一夜封神，开源新模型打进全球前三！

忘记社区，lightrag开源graph的又一用法

entropix，终于找到了真正解决幻觉的方法了

是时候更新vllm了，新版吞吐提升2倍

openai今天open了2下，prompt自动生成器、Agent框架开源

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

现实再次给大模型带来沉重打击

cde，世界上最好的 BERT 大小文本嵌入模型

卷疯了！开源社区离openai o1越来越近~

openai突发上架新模型：gpt4t-lu-test

SFT无需指令，响应微调开源~

点赞送书啦！大模型应用落地指南

Meta刚开源llama 3.2多模态，就被打败了~

cot-decoding，谷歌把o1的底裤都开源了

openai终于open了，开源了，别骂了~

免费送！我们出版了首本大模型RAG书籍

如果思维链都满足不了你，那思维图尼？

RL驱动的Reflection炼丹，谷歌开源SCoRe

大模型Agent，如何利用历史经验自我进化？

OpenAI o1时代，RLHF和多模态我全都要！！！

Qwen2.5系列开源来袭！冲！

达到草莓的70%！首个open o1项目开源

疯狂24h后，openai o1有哪些新的秘密？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉