OpenAI危？！Claude已经超越GPT系列了？尤其在代码上...

文摘科技 2024-07-15 12:01 英国

MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation

OpenAI危？！Claude已经超越GPT系列了？尤其在代码上...

‍‍‍‍‍

文章封面梗图在最后~各种链接也在文末~

近期在网络上一位知名记者的推文引起了广泛关注，他说在用AI辅助培训孩子编程时发现ChatGPT3.5比Claude 3.5 Sonnet差很多，而评论区有的人则说感觉Claude 3.5 Sonnet比GPT-4o也好，恰好笔者翻到一条评论，这位用户的评论里提到了一篇前沿论文，这篇论文项目所构建的一个代码模型的排行榜恰好就印证了这位记者的真实用户体验。其实在Claude系列的新模型发布以来，一直有各种赞美的声音（真的很多我就不截图了，在X搜Claude+better关键词可以找到），我们不禁遐想Claude是不是真的已经在很多方面超越了GPT系列了！

我们好奇地点进这位用户的主页，发现他对这篇论文的细节做了更多补充，这篇论文居然是一篇以776的高分被第一届大模型顶尖会议COLM拒绝了的文章！这篇分数在1036份投稿中排前10%却被录取率为28.8%的会议拒稿的文章具体做了啥和发现了啥呢？

简而言之，作者将先前已经饱和的代码生成数据集如HumanEval与MBPP做了分析，尤其关注各种模型在这些benchmark上错误的题，在经过泛化和精心设计后，他们提出了七类代码生成题目的难点(Distraction, Redefinition, Shortcut, Commonsense, Cornercase, Complexity, Codesense)并按照这些细分的难点设计了困难的Python算法题，并评测大量模型后做了大量分析。

配合leaderboard和论文里的图片看的话，我们注意到除了Claude 3.5 Sonnet已经勇夺桂冠之外，还有一些有趣的发现：

开源模型（DeepSeek-Coder-V2-Instruct，Llama-3-70B-Instruct，Qwen2-72B-Instruct）的表现其实很让人惊艳，在40%以上的准确率，但和御两家（指OpenAI和Anthropic）的模型比还是落了下风；
像Phi系列这种小模型，即使2、3B的规模也能接近其他模型十几B的效果，7B的Phi-3-small则能接近34B模型的效果，说明他们的方法不容小觑，之前有些人可能还会怀疑它们拟合了HumanEval的数据集，这种流言不攻自破，看来微软出品还是值得信赖；
从figure5里看，这个数据集与HumanEval上的效果有很强相关性，比如模型效果通常随着规模的变大而变好；
再看figure4的七种细分类别上，不同难点的错误率不尽相同，GPT-4在Shortcut这种需要博弈论或者数学算法找到一个捷径的题目上表现最差，而这种细分类别恰好是HumanEval里最欠缺的类别之一。

从论文看，作者设计细分类别原因在于，代码数据通常是非常难读难分析的（做代码模型的人大概有所体会），如果能有一个benchmark，在评测完之后能给出更加细分类别的错误率，那么如何提升模型也就有了方向，比如说如果模型在Codesense这种要求模型能够熟悉外部库的题目上错的多，那或许可以多给模型训标准库教它如何调用现成代码，如果Commonsense上错误率高，那或许还要在常识数据上下猛药。另外，如果我们再试着给每个难点类别是否更偏向记忆还是推理做个分级（见下table1），我们也会发现小模型或许多数能在偏记忆的难题上做好，但是却不容易做好推理密集的题目，这和通常大家观念中认为的规模越大越的模型越擅长复杂推理也相符合。

那么为什么这篇文章高分被拒呢，原来是被认为没有说明release data的机制，小数据集有被污染的风险，在这种情况下这个和HumanEval差不多的大小的数据集与拥有10k条数据的CodeContest相比就很小了（谁家好人把评测集用来和训练集比啊，不过或许也提醒大家存在这种被拒稿的理由，在写作的时候可能要注意一下

最后，令人震惊的是，这篇论文恰好就是笔者的论文，上面回复记者的网友也恰好就是笔者，看来真是无巧不成书啊，那么这篇论文被笔者的公众号收录也就很合理了。所以看到这里的大家请尽快点击以下链接了解更多细节、参与讨论并试试效果吧！

Twitter：https://x.com/dj6dj6/status/1811806639764435148

Paper：https://arxiv.org/pdf/2405.11430

Leaderboard：https://sparksofagi.github.io/MHPP/

Github：https://github.com/SparksofAGI/MHPP

P.S.有个叫MR-BEN的关注模型推理能力的评测集已经采用了MHPP的题目作为代码方向的数据，并且也引起了广泛讨论（包括一些年轻有为的学者），欢迎关注！

撰文：戴剑波；编辑：戴剑波

未经本公众号授权不得转载，欢迎转发。

SparksofAGI

人工智能前沿论文分享（注意！未关注的朋友我是回复不了您的私信的）

香港科技大学（广州）郭志江老师招收25 Fall全奖PhD/实习生，博士生奖学金每月1.5万！

COCONUT：将推理放在连续潜在空间进行

一种能提升Transformer复杂规划任务表现的训练目标：MLM-U

别教授它，去激励它

现有数据集普遍存在偏差？DART-Math：使用难度感知拒绝调优增强数学问题求解

代码数据在预训练时要训吗？训多少？退火时要放吗？

SELF-GUIDE：让模型自主生产任务特定微调数据

分词器暴露了模型训练数据分布，比如Claude系列模型用了57%的代码数据

可“自主进化”的Agent？首个端到端的智能体符号化训练框架开源了

演进指令方法增强版：自动演进指令

OpenAI危？！Claude已经超越GPT系列了？尤其在代码上...

MIT、清华、剑桥等发布元推理能力评测集：从答题到阅卷，还以MMLU评测大模型你就out了

缩放与评估稀疏自编码器

关注者推荐：当模型在胡说的时候知道自己在胡说吗？

微调真的导致了模型幻象吗？

AGI 的最终挑战（一）：AI for Math

LayerSkip——新的训练与推理范式：层Dropout，早期退出机制与自投机解码结合

仿照计算机系统的权限概念，指令层级帮助大模型防范多种攻击

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉