大模型论文淘金

文摘 2024-09-12 09:09 日本

今天带来一篇知乎好友@ybq 的文章，主要分享给大家判断论文价值的一些经验。

注意：该经验更多的是辅助提升工程能力，对纯搞学术的同学并无帮助，还望理解。

知乎：https://zhuanlan.zhihu.com/p/719626313

技术报告

没啥说的，当下最最最有含金量的论文，值得反复阅读。重点留意：数据清洗方法、pretrain 数据配比、pretrain 超参数、退火阶段、sft 的 task 种类、sft 的数据量级、dpo / ppo 训练技巧，合成数据方法等。

我个人觉着，国外 llama、mistral 是最大方的，国内 deepseek、minicpm 是最大方的。

OpenAI

OpenAI 2023 年以前的论文都属于百年陈酿，值得反复品味。它们那时候没名气，还很真诚、需要技术影响力。现在发布的东西，要么在秀肌肉，要么让人感觉哪里不太对劲。

评估 > 训练

这个观点我重点分析一下。大模型发展到现在，除非 OpenAI 挤出来更多的牙膏，或者是某大佬再提出 flash_attention、rope 等惊为天人的创举，否则 pretrain、sft、dpo、ppo 等的训练方法和技巧基本都快定型了。搞来搞去，大抵都是 scaling_law、数据配比、学习率、优化器、退火阶段、数据多样性、裁剪、正则、调整正负例 loss，引入或移除某网络，等等。

那么，如何确定自己该不该加入某个技巧呢？如何确定某个技巧的正确使用方法呢？学习率、数据配比到底该该用什么数值？sft 又该使用多少数据？这些问题全都只能靠“经验”回答，几乎毫无理论可言。

我们需要一个鲁棒的评估结果来帮助做实验分析，倒果为因，解释某个训练技巧是否使用正确。

计算机作为经验学科，倒果为因并不是一个贬义词，谁有更丰富的经验谁就是更好的程序员。几年前，分析 BERT 结构相比于 GPT 结构更优越还属于 nlp 的八股文；当下，分析 decoder-only 结构的优异性也属于 nlp 的八股文。

可话说回来，业界目前基本没有高效全面且快速的评估，目前最常用评估方式大概是下面几种。

刷 benchmark：怎么说呢，信白盒 benchmark 的结果不如信我是秦始皇。大家都刷了 ceval、mmlu，你不刷你就比不上人家，你的模型就没人关注，这已经成为了一个死循环，无可奈何；
GPT4 评估：效果十分不稳定，alignbench、MTbench 这种榜，用 GPT4 跑 10 次，最好结果和最坏结果能差十几个点；
跑具体 case 然后由人来评估：好用，有用，但是又慢又贵，且不适合指导 pretrain 模型。

（评估还有一个问题是，做题不太能反映出来模型的真实能力，可能要从 logits 分布等更深层次的内容来分析模型能力。作为大模型不具有任何数据学能力的坚定支持者，即使 gsm8k，mathQA 等这些评测集没有被模型提前训过，我也不认可它们等价于数学能力，我觉着模型“纯在靠背”。这段话完全是个人观点，无任何出处。）

因此，评估依旧是当下最大的瓶颈。谁评估快、谁评估准，谁就能积攒更多的训练经验。所以也引出了我这个奇葩的观点：评估工作的论文含金量比训练工作的论文更高。看见是做评估工作的论文，无论是提出方法，还是构建评测集，都别跳过，认真读读，万一真的很有效果，能拿来做成自动化评估 pipeline 呢。

这里插入一段范大将军关于开源模型刷榜的点评：

范大将军：你说 benchmark top1， benchmark top1 一届一届一届易主了个多少个开源模型了，效果真的好吗，换汤不换药啊！人家 Meta 也有理由说的，我对标的是什么啊，我对标的是 OpenAI 啊。你这批模型是抄谁的网络结构啊，你拿我当垫脚石。开源社区现在什么水平？就 llama 一个网络结构，你 qwen2 什么的都是最好的开源模型，他能对标 GPT4 吗？对标不了，没这个能力知道吗？再下去要刷赢 Llama3.1 了，Claude3.5 赢完赢 Llama3.1，再刷赢 GPT4o，接下来没公司赢了。

女记者：另一方面说，pretrain 训 benchmark 是为了更好的宣传模型。

范大将军：欧呦，谢天谢地了，呵～我已经说了，你这样子内卷本身就衡量不了模型的能力，你能跟我保证在明年或者后年，openAI 不纰漏技术了你能找到 AGI 的方向吗？务实一点，我劝你们，我把自己的模型评估、scaling_law 的这个理念先搞懂。这些评测集建的挺好的，你把它拿去训了干什么？你告诉我。在 gsm8k 数据集上拿了 99.9% 的准确率，你倒告诉我，怎么解释呢？那啥都不要了。

（热知识：gsm8k 测试集的实际准确率大概在 98% 左右）

arxiv > 顶会

很倒反天罡，但事实确实如此，怪只怪顶会论文的投稿周期太长了，拖拖沓沓的半年才发布，半年都够大模型行业重新洗牌了。

各公司里做的有意义的工作，都要抓紧时间发表来提高技术影响力，即使发表在顶会上了，大概率也在几个月前已经纰漏在 arxiv 上了。

企业 > 高校

只有清华有足够的机器去实操大模型训练，清华大佬们还全都在 kimi 和智谱当实习生。由于缺乏机器、缺乏批量访问 GPT4 的资金，高校的工作大多集中在：lora 微调，小模型微调，尝试解决幻觉，数据集构造，prompt engine 等工作。

说实话，对实际工作的指导意义不大，有一种华而不实的感觉，不如听听企业讲的洗数据的启发式规则。企业写出来的文章，最起码是玩过百卡规模的人写出来的，对解决实际问题往往更有帮助。

多模态 > 纯文本

大势所趋，纯文本才能做几个产品？多模态有不能做的产品吗？

学有余力的时候，早早了解多模态技术肯定没坏处。

可解释性工作

建议当课外读物，这种论文读起来非常有意思，感觉醍醐灌顶，自己开悟了，马上就可以把大模型玩弄于股掌之中了，但实际情况是连手头的模型过拟合问题都解决不了。

我个人非常推崇可解释性的工作，但我觉着我不能太把它们当回事，这不是我该考虑的方向。

网络结构 / 训练方法工作

这两种论文我把其并在一起来谈，它们的特点很相似：鱼龙混杂。这种工作的上限可以很高，类似于 ROPE、DPO 等均是类似的论文，但同时也可以是纯灌水的。

我的建议是：国内外大厂的可以看，名校大佬的可以看，有数学证明的可以看。

有没有数学证明就是这类工作的分水岭，好的工作不仅仅是观察到了实验现象，而且一定有严格的推导去证明这个现象的的正确性。总之就是，我可以看不懂你的数学证明，但你不能没有数学证明。

写在最后

以上，大抵就是我对论文实用度的判断方法，主打一个保守，“宁可错过，绝不滥读”。我觉着对于大多数人的普通人来说，不能老把自己代入伯乐的角色，总觉着自己能慧眼识珠发现有价值的工作。

就像 Meta 给 ROPE 证明一样，等大佬告诉我们什么是有价值的工作就行了，再学也来得及。

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！

NLP工作站

日常分享AIGC前沿知识&落地经验总结，也欢迎关注《ChatGPT原理与实战》、《大型语言模型实战指南》两本大模型相关书籍

最新文章

LLM实践系列-从零开始预训练1B级别大模型的心路历程

也许是2024年最值得一去的大模型国内年会！

LLM实践系列—大模型的拒绝采样2

实测腾讯开源的Hunyuan-Large大模型，感觉。。。

LLM实践系列-昇腾910B上进行Qwen2.5推理

LLM实践系列-细聊LLM的拒绝采样

面向中文有害表情包（meme）的综合性检测

OpenAI-O1之下，我们技术该何去何从

CartesianMoE：通过笛卡尔积路由提升专家间的知识共享

LLM实践系列-拯救Continue Pretrain的数据

超全！一文详解大型语言模型的11种微调方法

LLM实践系列-详谈Tokenizer训练细节

LLM实践系列-数据去重之Simhash&Minhash分析与实现

CodePMP：提升LLM推理能力的可扩展偏好模型预训练

全是细节 | 聊一聊做SFT的经验

Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

长文 | Reverse-o1：OpenAI o1原理逆向工程图解

全是细节 | 聊一聊做Pretrain的经验

Quest：一种以查询为中心的长文本数据合成方法

如何提升角色扮演大模型的拟人能力？

Qwen2.5系列模型开源，你值得拥有！！！

长文 | 探索基于RL的新LLM scaling范式

大模型千卡训练-经验指北

浅谈OpenAI o1的价值意义及RL 的Scaling Law

六个问题带你看懂什么是理工科学霸-OpenAI o1！

大型语言模型实战指南

大模型论文淘金

DPO，RM，RLHF 傻傻分不清楚

如何获取高质量数据进行代码指令调优？

浅谈大模型角色扮演：从当红炸子鸡到无人问津

将端侧大模型进行到底-MiniCPM3-4B开源

Qwen2-VL：Qwen系列已在开源的路上一骑绝尘

大模型微调终极指南

这段时间搞大模型的血和泪

综述 | 大模型的可控文本生成

大模型是泡沫吗？

大模型 VS 小模型

探讨大模型预训练与微调之间的相互作用

大模型时代，什么样的算法工程师更吃香？

没有等来Qwen2.5，但等来了Qwen2-Math

浅谈-领域模型训练

大模型微调到底有没有技术含量？

MOE系列模型-浅谈

大模型预训练开源数据集-整理

一大堆Llama3.1-Chinese正在袭来

浅谈Llama3.1，从结构、训练过程、影响到数据合成

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

RegMix-用回归任务解决大模型数据混合问题

开源真卷！Google开源Gemma 2大模型

让AI应用成为你的创意游乐场 - 快速搭建AI应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉