大模型论文淘金

文摘   2024-09-12 09:09   日本  

今天带来一篇知乎好友@ybq 的文章,主要分享给大家判断论文价值的一些经验。

注意:该经验更多的是辅助提升工程能力,对纯搞学术的同学并无帮助,还望理解。

知乎:https://zhuanlan.zhihu.com/p/719626313

技术报告

没啥说的,当下最最最有含金量的论文,值得反复阅读。重点留意:数据清洗方法、pretrain 数据配比、pretrain 超参数、退火阶段、sft 的 task 种类、sft 的数据量级、dpo / ppo 训练技巧,合成数据方法等。

我个人觉着,国外 llama、mistral 是最大方的,国内 deepseek、minicpm 是最大方的。

OpenAI

OpenAI 2023 年以前的论文都属于百年陈酿,值得反复品味。它们那时候没名气,还很真诚、需要技术影响力。现在发布的东西,要么在秀肌肉,要么让人感觉哪里不太对劲。

评估 > 训练

这个观点我重点分析一下。大模型发展到现在,除非 OpenAI 挤出来更多的牙膏,或者是某大佬再提出 flash_attention、rope 等惊为天人的创举,否则 pretrain、sft、dpo、ppo 等的训练方法和技巧基本都快定型了。搞来搞去,大抵都是 scaling_law、数据配比、学习率、优化器、退火阶段、数据多样性、裁剪、正则、调整正负例 loss,引入或移除某网络,等等。

那么,如何确定自己该不该加入某个技巧呢?如何确定某个技巧的正确使用方法呢?学习率、数据配比到底该该用什么数值?sft 又该使用多少数据?这些问题全都只能靠“经验”回答,几乎毫无理论可言。

我们需要一个鲁棒的评估结果来帮助做实验分析,倒果为因,解释某个训练技巧是否使用正确。

计算机作为经验学科,倒果为因并不是一个贬义词,谁有更丰富的经验谁就是更好的程序员。几年前,分析 BERT 结构相比于 GPT 结构更优越还属于 nlp 的八股文;当下,分析 decoder-only 结构的优异性也属于 nlp 的八股文。

可话说回来,业界目前基本没有高效全面且快速的评估,目前最常用评估方式大概是下面几种。

  • 刷 benchmark:怎么说呢,信白盒 benchmark 的结果不如信我是秦始皇。大家都刷了 ceval、mmlu,你不刷你就比不上人家,你的模型就没人关注,这已经成为了一个死循环,无可奈何;
  • GPT4 评估:效果十分不稳定,alignbench、MTbench 这种榜,用 GPT4 跑 10 次,最好结果和最坏结果能差十几个点;
  • 跑具体 case 然后由人来评估:好用,有用,但是又慢又贵,且不适合指导 pretrain 模型。

(评估还有一个问题是,做题不太能反映出来模型的真实能力,可能要从 logits 分布等更深层次的内容来分析模型能力。作为大模型不具有任何数据学能力的坚定支持者,即使 gsm8k,mathQA 等这些评测集没有被模型提前训过,我也不认可它们等价于数学能力,我觉着模型“纯在靠背”。这段话完全是个人观点,无任何出处。)

因此, 评估依旧是当下最大的瓶颈。谁评估快、谁评估准,谁就能积攒更多的训练经验。所以也引出了我这个奇葩的观点:评估工作的论文含金量比训练工作的论文更高。看见是做评估工作的论文,无论是提出方法,还是构建评测集,都别跳过,认真读读,万一真的很有效果,能拿来做成自动化评估 pipeline 呢。

这里插入一段范大将军关于开源模型刷榜的点评:

范大将军:你说 benchmark  top1, benchmark  top1 一届一届一届易主了个多少个开源模型了,效果真的好吗,换汤不换药啊!人家 Meta 也有理由说的,我对标的是什么啊,我对标的是 OpenAI 啊。你这批模型是抄谁的网络结构啊,你拿我当垫脚石。开源社区现在什么水平?就 llama 一个网络结构,你 qwen2 什么的都是最好的开源模型,他能对标 GPT4 吗?对标不了,没这个能力知道吗?再下去要刷赢 Llama3.1 了,Claude3.5 赢完赢  Llama3.1,再刷赢 GPT4o,接下来没公司赢了。

女记者:另一方面说,pretrain 训 benchmark 是为了更好的宣传模型。

范大将军:欧呦,谢天谢地了,呵~我已经说了,你这样子内卷本身就衡量不了模型的能力,你能跟我保证在明年或者后年,openAI 不纰漏技术了你能找到 AGI 的方向吗?务实一点,我劝你们,我把自己的模型评估、scaling_law 的这个理念先搞懂。这些评测集建的挺好的,你把它拿去训了干什么?你告诉我。在 gsm8k 数据集上拿了 99.9% 的准确率,你倒告诉我,怎么解释呢?那啥都不要了。

(热知识:gsm8k 测试集的实际准确率大概在 98% 左右)

arxiv > 顶会

很倒反天罡,但事实确实如此,怪只怪顶会论文的投稿周期太长了,拖拖沓沓的半年才发布,半年都够大模型行业重新洗牌了。

各公司里做的有意义的工作,都要抓紧时间发表来提高技术影响力,即使发表在顶会上了,大概率也在几个月前已经纰漏在 arxiv 上了。

企业 > 高校

只有清华有足够的机器去实操大模型训练,清华大佬们还全都在 kimi 和智谱当实习生。由于缺乏机器、缺乏批量访问 GPT4 的资金,高校的工作大多集中在:lora 微调,小模型微调,尝试解决幻觉,数据集构造,prompt engine 等工作。

说实话,对实际工作的指导意义不大,有一种华而不实的感觉,不如听听企业讲的洗数据的启发式规则。企业写出来的文章,最起码是玩过百卡规模的人写出来的, 对解决实际问题往往更有帮助。

多模态 > 纯文本

大势所趋,纯文本才能做几个产品?多模态有不能做的产品吗?

学有余力的时候,早早了解多模态技术肯定没坏处。

可解释性工作

建议当课外读物,这种论文读起来非常有意思,感觉醍醐灌顶,自己开悟了,马上就可以把大模型玩弄于股掌之中了,但实际情况是连手头的模型过拟合问题都解决不了。

我个人非常推崇可解释性的工作,但我觉着我不能太把它们当回事,这不是我该考虑的方向。

网络结构 / 训练方法工作

这两种论文我把其并在一起来谈,它们的特点很相似:鱼龙混杂。这种工作的上限可以很高,类似于 ROPE、DPO 等均是类似的论文,但同时也可以是纯灌水的。

我的建议是:国内外大厂的可以看,名校大佬的可以看,有数学证明的可以看。

有没有数学证明就是这类工作的分水岭,好的工作不仅仅是观察到了实验现象,而且一定有严格的推导去证明这个现象的的正确性。总之就是,我可以看不懂你的数学证明,但你不能没有数学证明。

写在最后

以上,大抵就是我对论文实用度的判断方法,主打一个保守,“宁可错过,绝不滥读”。我觉着对于大多数人的普通人来说,不能老把自己代入伯乐的角色,总觉着自己能慧眼识珠发现有价值的工作。

就像 Meta 给 ROPE 证明一样,等大佬告诉我们什么是有价值的工作就行了,再学也来得及。

PS:给公众号添加【星标⭐️】不迷路!您的点赞在看关注是我坚持的最大动力!

欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!

往期推荐:

NLP工作站
日常分享AIGC前沿知识&落地经验总结,也欢迎关注《ChatGPT原理与实战》、《大型语言模型实战指南》两本大模型相关书籍
 最新文章