编程表现比肩ChatGPT，这个新模型能力很强大

文摘 2024-09-06 07:22 北京

智谱8月底在国际数据挖掘与知识发现大会（KDD）上发布了新一代自主研发的新旗舰模型（GLM-4-Plus、GLM-4V-Plus、CogView-3-Plus），此次更新覆盖了语言理解、图像生成、视频理解等多个方面，并达到了国际第一梯队的水平。

本次发布较之前有以下更新：

GLM-4-Plus（大语言模型）：语言理解和长文本处理能力全面提升，支持128K上下文和多路Function Call。
GLM-4V-Plus（图像和视频理解模型）：具备卓越的图像和视频理解能力，支持8K上下文和多图输入，拥有时间感知能力。
CogView-3-Plus：图像生成效果接近MJ-V6及FLUX等模型，支持精细化图像编辑。

作为智谱最新一代基座大模型GLM-4-Plus，通过多种方式构造出了海量高质量数据，并利用 PPO等多项技术，有效提升了模型推理、指令遵循等方面的表现，并能够更好地反映人类偏好。从benchmark上看，与 GPT-4o 等第一梯队模型差距很小。

既然，官方说的这么好，那咱们就一定要去尝尝鲜，这些模型在智谱的开放平台（ bigmodel.cn ）就能体验。

咱也不让它写文章，做数学题了，这些网上很多文章都有介绍，咱们就让它做一次程序员，试试它的编程能力，顺便体验一下sdk的易用性。

我给它出了一道很常见的面试算法题“字符串全排列”，它很干脆的给出了结果，经过笔者验证，回答正确，看起来这些曾被大家“wow”的能力，在当下已经成为了基本功。这里有一个小细节，笔者在提示词里增加了不用解释这样的描述，GLM-4-Plus没有啰嗦解释，这说明指令遵从能力还可以，这一点对于LLM应用开发很重要。

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="...") 

def ai_programmer(task):
    prompt = f"作为一个经验丰富的程序员，请帮我完成以下任务：{task},仅返回代码，不用解释"
    response = client.chat.completions.create(
    model="glm-4-plus",  
    messages=[
        {
            "role": "user",
            "content": prompt
        }
        ],
    )   
    return response.choices[0].message
  

task = "写一个Python函数，实现字符串abc的全排列"
result = ai_programmer(task)

print(result.content)


# ```python
# def permute_abc(s):
#     if len(s) == 1:
#         return [s]
#     permutations = []
#     for i, char in enumerate(s):
#         remaining = s[:i] + s[i+1:]
#         for p in permute_abc(remaining):
#             permutations.append(char + p)
#     return permutations

# def all_permutations_abc():
#     return permute_abc('abc')
# ```

当然，这个难度不大，很多模型都能做到，那我们调高难度，我拿了前两天ChatGPT及Cursor逆向工程压缩特效js的代码测试了GLM-4-Plus（延伸阅读：用ChatGPT逆向工程压缩后的Js代码，表现惊艳）。

glm-4-plus理解了代码，并给出了详细的解释。

接着，我让它对原代码进行了重构，使其变得更易读。

就从代码风格，变量、方法命名看，glm-4-plus表现的比chatGPT还要好，能够准确的起名和注释。但最后评价好不好，还得实测，笔者照例把它放到了v0chat上，按照同样的方式，让它调用glm-4-plus生成的组件，看看能不能还原预期的效果。

令人欣喜的是，超乎我的预期的是它一次性的就运行了起来，笔者同时还测试了一些国产模型，他们很遗憾并没能运行起来，也就无法对比实现的效果。看过之前文章的读者应该能发现，从实现的还原度来看，glm-4-plus与gpt-4o模型和claude-3.5-sonanet性能还有一些差距。这也反映当下一个事实，国内大模型这一年进步明显，但尚存差距，我们还得继续追赶。

总结

AI的世界每天都在变化，而智谱BigModel的发布，无疑是给了我们中国开发者一个大大的惊喜。无论是想做聊天机器人、图像处理还是视频分析，只要有创意，都可以尝试使用它们实现想法，而不用遗憾用不上领先模型的遗憾，这也能进一步激发LLM应用生态的繁荣。

One more things：

同期还发布了其它有趣的模型，可以在清言 APP或是开放平台试一试：

| Prompt：A stone in a cave with the words 'CogView3+' carved on it, set in a mystical and ancient environment.

相关链接：

[1] 智谱开放平台地址：https://open.bigmodel.cn/login?utm_source=AI%E5%B7%A5%E7%A8%8B%E5%8C%96&utm_content=%E6%96%B0%E6%A8%A1%E5%9E%8B%E6%8E%A8%E5%B9%BF&utm_campaign=%E6%96%B0%E6%A8%A1%E5%9E%8B&_channel_track_key=bb2oKjQ5

解锁AI新知，与技术大咖并肩！

扫描下列二维码加入「ZHIPUer技术社区」，分享最新案例，交流技术心得，还有更多社区活动奖励、内测福利、企业内推等机会等你解锁。

http://mp.weixin.qq.com/s?__biz=MzA5MTIxNTY4MQ==&mid=2461146829&idx=1&sn=0df270da35453e847e0c021215fcbf62

AI工程化

专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。

最新文章

特朗普强势回归，AI行业迎春风：科技巨头“投诚”，马斯克重任在肩

TextIn：一款优秀的 PDF文档解析神器，提升RAG性能必备

Integuru：大模型加持，一键生成第三方集成代码，解放开发者双手

马斯克旗下xAI API开放，每月$25免费额度激励开发者！

50K*16薪，进字节了！

pdf-extract-api：可本地化运行的高效处理隐私文档的神器

openai-captcha-detection :号称在OpenAI模型加持下，可100%正确识别验证码

Selenium x Claude 造就AI驱动的浏览器自动化神器——Cerebellum

ChatGPT o1完整版本泄露：功能强大引热议，莫非又是营销天才Sam Altman故意为之？

AMD使用自家GPU集群发布首个 1B 参数语言模型 AMD OLMo

LeReT：利用多跳检索与强化学习克服大模型“幻觉”

AirLLM：突破显存限制，让 4GB GPU 也能运行 70B 大模型

超越v0chat，开源的AI前端开发神器——screenshot-to-code

Anthropic提出的Contextual RAG开源实现Open Contextual RAG来了

Claude 3.5 Sonnet登陆Github，Cursor亚历山大

chromem-go：零依赖嵌入式向量数据库，Go 开发者的新宠！

RAGChecker:显著超越RAGAS，一个精细化评估和诊断 RAG 系统的创新框架

微软 OmniParser：超越GPT4V的视觉屏幕界面解析利器

为什么大模型会算错“9.11与9.8谁大？”，这个可观测工具帮你一探究竟

Meta 发布 Llama 3.2 1B和3B版本：推理速度翻倍，模型更轻

探索 Claude Artifacts 的无限可能：一周内构建的14个实用工具

最快体验 Claude 3.5 Sonnet 控制电脑方法来了！

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

Transformers.js v3震撼发布：WebGPU加速、120种架构支持，开发者必备神器！

mPLUG-DocOwl 1.5：无需 OCR 原生理解解析各种结构文档

开源向量数据库性能对比: Milvus, Chroma, Qdrant

重磅消息：Claude 3.5 系列模型大更新及革命性增加计算机使用能力

AIGC利器ComfyUI V1 发布：简化安装，跨平台支持，非技术用户福音

每天写代码：Jquery作者John Resig透露程序员高产秘诀

超简单！手把手从零构建神经网络

StructRAG：超越GraphRAG，知识密集型 RAG 性能提升的新思路

一个 Python 文件实现 Perplexity 搜索?

Agora 协议:打造Agent互联网的第一步

Zerox：gpt-4o-mini 加持的零配置高效 OCR 神器

OpenAI：AI不仅仅对你名字有偏见，这些方面也差别对待

Google AI 助手 NotebookLM 正式发布：多模态理解能力大幅提升

Mistral AI 发布革命性边缘模型 Ministral 3B 和8B：性能与隐私双料俱佳

NVIDIA 发布 Llama 3.1 70B 模型：性能超越 Claude 3.5 和GPT-4o

Ollama 平台新功能：轻松运行 Hugging Face Hub 上的 GGUF 模型

AI 能自查幻觉了！谷歌苹果联手打造“真话检测器”

AutoGen: 我也能实现OpenAI Swarm中的handoff

Mem0上架chrome插件商店，把记忆交给AI！

A16Z：导出"你的大脑"给AI,你将收获什么？

Meta：无需人工标注，LLM 评估器也能自我提升？

非广告免费使用Qwen2.5 72B等付费模型的方法来了，很实用！

为什么 AI 在数学题前抓瞎？苹果研究揭示 AI 推理能力的局限性

Swarm：一个OpenAI开源的multiAgent框架，简单哲学的代表

Python 3.13.0 震撼发布：性能飞跃，AI 项目迎来新机遇

Dario Amodei 最新博文预言我们这代人将有可能活到150岁！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉