OpenAI危?!Claude已经超越GPT系列了?尤其在代码上...

文摘   科技   2024-07-15 12:01   英国  

MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation

OpenAI危?!Claude已经超越GPT系列了?尤其在代码上...

‍‍‍‍‍





文章封面梗图在最后~各种链接也在文末~


近期在网络上一位知名记者的推文引起了广泛关注,他说在用AI辅助培训孩子编程时发现ChatGPT3.5比Claude 3.5 Sonnet差很多,而评论区有的人则说感觉Claude 3.5 Sonnet比GPT-4o也好,恰好笔者翻到一条评论,这位用户的评论里提到了一篇前沿论文,这篇论文项目所构建的一个代码模型的排行榜恰好就印证了这位记者的真实用户体验。其实在Claude系列的新模型发布以来,一直有各种赞美的声音(真的很多我就不截图了,在X搜Claude+better关键词可以找到),我们不禁遐想Claude是不是真的已经在很多方面超越了GPT系列了!

我们好奇地点进这位用户的主页,发现他对这篇论文的细节做了更多补充,这篇论文居然是一篇以776的高分被第一届大模型顶尖会议COLM拒绝了的文章!这篇分数在1036份投稿中排前10%却被录取率为28.8%的会议拒稿的文章具体做了啥和发现了啥呢?

简而言之,作者将先前已经饱和的代码生成数据集如HumanEval与MBPP做了分析,尤其关注各种模型在这些benchmark上错误的题,在经过泛化和精心设计后,他们提出了七类代码生成题目的难点(Distraction, Redefinition, Shortcut, Commonsense, Cornercase, Complexity, Codesense)并按照这些细分的难点设计了困难的Python算法题,并评测大量模型后做了大量分析。

配合leaderboard和论文里的图片看的话,我们注意到除了Claude 3.5 Sonnet已经勇夺桂冠之外,还有一些有趣的发现:

  • 开源模型(DeepSeek-Coder-V2-Instruct,Llama-3-70B-Instruct,Qwen2-72B-Instruct)的表现其实很让人惊艳,在40%以上的准确率,但和御两家(指OpenAI和Anthropic)的模型比还是落了下风;
  • Phi系列这种小模型,即使2、3B的规模也能接近其他模型十几B的效果,7B的Phi-3-small则能接近34B模型的效果,说明他们的方法不容小觑,之前有些人可能还会怀疑它们拟合了HumanEval的数据集,这种流言不攻自破,看来微软出品还是值得信赖;
  • 从figure5里看,这个数据集与HumanEval上的效果有很强相关性,比如模型效果通常随着规模的变大而变好;
  • 再看figure4的七种细分类别上,不同难点的错误率不尽相同,GPT-4在Shortcut这种需要博弈论或者数学算法找到一个捷径的题目上表现最差,而这种细分类别恰好是HumanEval里最欠缺的类别之一。


从论文看,作者设计细分类别原因在于,代码数据通常是非常难读难分析的(做代码模型的人大概有所体会),如果能有一个benchmark,在评测完之后能给出更加细分类别的错误率,那么如何提升模型也就有了方向,比如说如果模型在Codesense这种要求模型能够熟悉外部库的题目上错的多,那或许可以多给模型训标准库教它如何调用现成代码,如果Commonsense上错误率高,那或许还要在常识数据上下猛药。另外,如果我们再试着给每个难点类别是否更偏向记忆还是推理做个分级(见下table1),我们也会发现小模型或许多数能在偏记忆的难题上做好,但是却不容易做好推理密集的题目,这和通常大家观念中认为的规模越大越的模型越擅长复杂推理也相符合。

那么为什么这篇文章高分被拒呢,原来是被认为没有说明release data的机制,小数据集有被污染的风险,在这种情况下这个和HumanEval差不多的大小的数据集与拥有10k条数据的CodeContest相比就很小了(谁家好人把评测集用来和训练集比啊不过或许也提醒大家存在这种被拒稿的理由,在写作的时候可能要注意一下

最后,令人震惊的是,这篇论文恰好就是笔者的论文,上面回复记者的网友也恰好就是笔者,看来真是无巧不成书啊,那么这篇论文被笔者的公众号收录也就合理了。所以看到这里的大家请尽快点击以下链接了解更多细节、参与讨论并试试效果吧!

Twitter:https://x.com/dj6dj6/status/1811806639764435148
Paper:https://arxiv.org/pdf/2405.11430 
Leaderboard:https://sparksofagi.github.io/MHPP/
Github:https://github.com/SparksofAGI/MHPP

P.S.有个叫MR-BEN的关注模型推理能力的评测集已经采用了MHPP的题目作为代码方向的数据,并且也引起了广泛讨论(包括一些年轻有为的学者),欢迎关注!


撰文:戴剑波;编辑:戴剑波

未经本公众号授权不得转载,欢迎转发。

SparksofAGI
人工智能前沿论文分享(注意!未关注的朋友我是回复不了您的私信的)