备受期待的Deepseek V3终于开源!这款全新的AI模型在多语言编程能力上取得了重大突破,其在aider多语言编程测评中的表现,甚至超越了Claude3.5 Sonnet V2等竞争对手,引发了业界广泛关注。
据了解,Deepseek V3相比之前的版本,在性能上实现了质的飞跃。Deepseek V2.5在aider测评中的成功率仅为17%,而V3则暴增至48%,这充分展现了其强大的进步。
编程能力暴增
DeepSeek V3 预览版低调发布,但是非常牛逼。一句话重点:编程能力超过 Claude Sonnet 3.5,这还只是预览版。
测试的基准是 Aider 的多语言基准,一个用于衡量模型编程能力的基准
几个模型的得分
62% o1 48% DeepSeek V3 预览 45% Claude 38% Gemini-exp-1206 33% o1-mini
Aider Polyglot 排行榜, 预览得分48.4%,排名第二,仅次于 o1-2024-12-17 (high),领先于 Claude 3.5 Sonnet-20241022 和 Gemini Exp-1206。在 BigCodeBench-Hard 上排名第一。
LiveBench排行榜中,DeepSeek v3 是最佳开源LLM 和继“gemini-exp-1206”之后第二佳非推理LLM🔥
DeepSeek V3的项目地址
HuggingFace模型库:https://huggingface.co/deepseek-ai/DeepSeek-V3 论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
Deepseek V3采用了高达6850亿参数的 混合专家(MoE) 架构。该架构包含256个专家,并使用sigmoid路由方式,每次选取前8个专家(topk=8)参与计算,这种设计使得模型能够更加高效地处理复杂任务,并提高了性能。
参考资料
https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ https://ai-bot.cn/deepseek-v3/
进技术交流群请添加AINLP小助手微信(id: ainlp2)
请备注具体方向+所用到的相关技术点 关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。