今天带来一篇知乎好友@ybq 的文章,主要分享给大家判断论文价值的一些经验。
注意:该经验更多的是辅助提升工程能力,对纯搞学术的同学并无帮助,还望理解。
知乎:https://zhuanlan.zhihu.com/p/719626313
技术报告
没啥说的,当下最最最有含金量的论文,值得反复阅读。重点留意:数据清洗方法、pretrain 数据配比、pretrain 超参数、退火阶段、sft 的 task 种类、sft 的数据量级、dpo / ppo 训练技巧,合成数据方法等。
我个人觉着,国外 llama、mistral 是最大方的,国内 deepseek、minicpm 是最大方的。
OpenAI
OpenAI 2023 年以前的论文都属于百年陈酿,值得反复品味。它们那时候没名气,还很真诚、需要技术影响力。现在发布的东西,要么在秀肌肉,要么让人感觉哪里不太对劲。
评估 > 训练
这个观点我重点分析一下。大模型发展到现在,除非 OpenAI 挤出来更多的牙膏,或者是某大佬再提出 flash_attention、rope 等惊为天人的创举,否则 pretrain、sft、dpo、ppo 等的训练方法和技巧基本都快定型了。搞来搞去,大抵都是 scaling_law、数据配比、学习率、优化器、退火阶段、数据多样性、裁剪、正则、调整正负例 loss,引入或移除某网络,等等。
那么,如何确定自己该不该加入某个技巧呢?如何确定某个技巧的正确使用方法呢?学习率、数据配比到底该该用什么数值?sft 又该使用多少数据?这些问题全都只能靠“经验”回答,几乎毫无理论可言。
我们需要一个鲁棒的评估结果来帮助做实验分析,倒果为因,解释某个训练技巧是否使用正确。
计算机作为经验学科,倒果为因并不是一个贬义词,谁有更丰富的经验谁就是更好的程序员。几年前,分析 BERT 结构相比于 GPT 结构更优越还属于 nlp 的八股文;当下,分析 decoder-only 结构的优异性也属于 nlp 的八股文。
可话说回来,业界目前基本没有高效全面且快速的评估,目前最常用评估方式大概是下面几种。
刷 benchmark:怎么说呢,信白盒 benchmark 的结果不如信我是秦始皇。大家都刷了 ceval、mmlu,你不刷你就比不上人家,你的模型就没人关注,这已经成为了一个死循环,无可奈何; GPT4 评估:效果十分不稳定,alignbench、MTbench 这种榜,用 GPT4 跑 10 次,最好结果和最坏结果能差十几个点; 跑具体 case 然后由人来评估:好用,有用,但是又慢又贵,且不适合指导 pretrain 模型。
(评估还有一个问题是,做题不太能反映出来模型的真实能力,可能要从 logits 分布等更深层次的内容来分析模型能力。作为大模型不具有任何数据学能力的坚定支持者,即使 gsm8k,mathQA 等这些评测集没有被模型提前训过,我也不认可它们等价于数学能力,我觉着模型“纯在靠背”。这段话完全是个人观点,无任何出处。)
因此, 评估依旧是当下最大的瓶颈。谁评估快、谁评估准,谁就能积攒更多的训练经验。所以也引出了我这个奇葩的观点:评估工作的论文含金量比训练工作的论文更高。看见是做评估工作的论文,无论是提出方法,还是构建评测集,都别跳过,认真读读,万一真的很有效果,能拿来做成自动化评估 pipeline 呢。
这里插入一段范大将军关于开源模型刷榜的点评:
范大将军:你说 benchmark top1, benchmark top1 一届一届一届易主了个多少个开源模型了,效果真的好吗,换汤不换药啊!人家 Meta 也有理由说的,我对标的是什么啊,我对标的是 OpenAI 啊。你这批模型是抄谁的网络结构啊,你拿我当垫脚石。开源社区现在什么水平?就 llama 一个网络结构,你 qwen2 什么的都是最好的开源模型,他能对标 GPT4 吗?对标不了,没这个能力知道吗?再下去要刷赢 Llama3.1 了,Claude3.5 赢完赢 Llama3.1,再刷赢 GPT4o,接下来没公司赢了。
女记者:另一方面说,pretrain 训 benchmark 是为了更好的宣传模型。
范大将军:欧呦,谢天谢地了,呵~我已经说了,你这样子内卷本身就衡量不了模型的能力,你能跟我保证在明年或者后年,openAI 不纰漏技术了你能找到 AGI 的方向吗?务实一点,我劝你们,我把自己的模型评估、scaling_law 的这个理念先搞懂。这些评测集建的挺好的,你把它拿去训了干什么?你告诉我。在 gsm8k 数据集上拿了 99.9% 的准确率,你倒告诉我,怎么解释呢?那啥都不要了。
(热知识:gsm8k 测试集的实际准确率大概在 98% 左右)
arxiv > 顶会
很倒反天罡,但事实确实如此,怪只怪顶会论文的投稿周期太长了,拖拖沓沓的半年才发布,半年都够大模型行业重新洗牌了。
各公司里做的有意义的工作,都要抓紧时间发表来提高技术影响力,即使发表在顶会上了,大概率也在几个月前已经纰漏在 arxiv 上了。
企业 > 高校
只有清华有足够的机器去实操大模型训练,清华大佬们还全都在 kimi 和智谱当实习生。由于缺乏机器、缺乏批量访问 GPT4 的资金,高校的工作大多集中在:lora 微调,小模型微调,尝试解决幻觉,数据集构造,prompt engine 等工作。
说实话,对实际工作的指导意义不大,有一种华而不实的感觉,不如听听企业讲的洗数据的启发式规则。企业写出来的文章,最起码是玩过百卡规模的人写出来的, 对解决实际问题往往更有帮助。
多模态 > 纯文本
大势所趋,纯文本才能做几个产品?多模态有不能做的产品吗?
学有余力的时候,早早了解多模态技术肯定没坏处。
可解释性工作
建议当课外读物,这种论文读起来非常有意思,感觉醍醐灌顶,自己开悟了,马上就可以把大模型玩弄于股掌之中了,但实际情况是连手头的模型过拟合问题都解决不了。
我个人非常推崇可解释性的工作,但我觉着我不能太把它们当回事,这不是我该考虑的方向。
网络结构 / 训练方法工作
这两种论文我把其并在一起来谈,它们的特点很相似:鱼龙混杂。这种工作的上限可以很高,类似于 ROPE、DPO 等均是类似的论文,但同时也可以是纯灌水的。
我的建议是:国内外大厂的可以看,名校大佬的可以看,有数学证明的可以看。
有没有数学证明就是这类工作的分水岭,好的工作不仅仅是观察到了实验现象,而且一定有严格的推导去证明这个现象的的正确性。总之就是,我可以看不懂你的数学证明,但你不能没有数学证明。
写在最后
以上,大抵就是我对论文实用度的判断方法,主打一个保守,“宁可错过,绝不滥读”。我觉着对于大多数人的普通人来说,不能老把自己代入伯乐的角色,总觉着自己能慧眼识珠发现有价值的工作。
就像 Meta 给 ROPE 证明一样,等大佬告诉我们什么是有价值的工作就行了,再学也来得及。
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注是我坚持的最大动力!
欢迎多多关注公众号「NLP工作站」,加入交流群,交个朋友吧,一起学习,一起进步!
往期推荐:
一大堆Chinese Llama3正在袭来 LLM2LLM:迭代数据增强策略提升大模型微调效果 如何快速提高大模型的向量表征效果? RAG系统中答案无关片段对LLMs生成答案有何影响? InternLM2技术报告 Qwen1.5-MoE模型:2.7B的激活参数量达到7B模型的性能 RAG与Long-Context之争—没必要争 角色扮演大模型的碎碎念 自我蒸馏方法-减轻大模型微调过程中的灾难性遗忘 Yi技术报告细节分享 大模型增量预训练新技巧-解决灾难性遗忘 如何提高LLMs的文本表征(Text Embedding)能力? DEITA-大模型指令微调的数据高效筛选方法 大模型微调技巧 | 高质量指令数据筛选方法-MoDS 辟谣!微软撤回声称ChatGPT为20B参数的论文,并给出解释。 如何看待微软论文声称 ChatGPT 是 20B (200亿) 参数量的模型? 大模型微调技巧-在Embeeding上加入噪音提高指令微调效果 如何从数据集中自动识别高质量的指令数据 BaiChuan2技术报告细节分享&个人想法 大模型LLM微调经验总结&项目更新 打造LLM界的Web UI 是我们在训练大模型,还是大模型在训练我们? Llama2技术细节&开源影响 大模型时代-行业落地再思考 垂直领域大模型的一些思考及开源模型汇总 如何评估大模型-LLMs的好坏?