点击上方卡片关注我
添加微信:wilson_aigc 领取一份AI知识库
在KDD国际数据挖掘与知识发现大会上,智谱AI发布了新一代基座大模型GLM-4-Plus。
此次的更新涵盖了语言理解、图像生成、视频理解及生成等多个领域,GLM-4V-Plus将成为国内首个通用视频理解模型API,已在开放平台上线。
别的不说,GLM-4-Flash API免费开放给所有人,开源模型数量遥遥领先,都值得给智谱点个赞
01
GLM-4-Plus 是一个全新的模型,智谱使用了大量模型辅助构造高质量合成数据以提升模型性能。
开放平台已上线,可直接登录 bigmodel.cn
体验,官方把 GLM-4-Plus 定位为高智能旗舰型。
定价是0.05元/千tokens。
大模型跑分,GLM-4-Plus悄悄接近了GPT-4o,LCB(代码)甚至追平,与Claude 3.5 Sonnet还有一些距离。Claude 3.5的确强的可怕,有点期待Claude的下一个版本。
长文本能力同样出色,甚至超越GPT-4o。
有一说一,GLM-4-Plus解决了9.9和9.11,谁比较大的大模型难题。
同一个问题,GPT-4o还没反应过来。
这是一道2021年新加坡小六会考“最难”数学题,ChatGPT也在这上翻过车,GLM-4-Plus完美回答正确。
02
GLM-4V-Plus具备卓越的图像理解能力,并具备基于时间感知的视频理解能力。该模型已上线开放平台bigmodel.cn
,成为国内首个通用视频理解模型 API 。
跑分数据如下,除了MMMU-Val,跑分数据都超过了GPT-4o和Claude 3.5.
MMMU-Val专门用于评估大型多模态模型的能力。
识别卡通动画角色不在话下。
不过,目前后台还不支持直接上传视频,可以看看官方的视频案例。
用户:这个穿绿色衣服的球员在视频里面做了什么?
GLM-4V-Plus:穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。
用户:视频的精彩时刻是什么?发生在第几秒?
GLM-4V-Plus:视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐。
本案例来源于智谱
GLM-4V-Plus在时间问答能力的表现让人眼前一亮,以后上课学习不认真,课后用AI快速补课也是一个很好的选择。
03
智谱文生图模型发布最新版本CogView-3-Plus,其效果接近目前最佳的 MJ-V6 及 FLUX 等模型,并支持图片编辑功能。
跑分图如下。
咱不和MJ和Flux比,实测中与MJ还是有一定的差距,先和国内AI绘画顶尖选手妙画和可灵比比。
提示词:天蓝色纸上有一个洞,上面有复杂空间,一只老虎冲破洞口跳出来,视觉冲击,高品质,逼真
提示词:蜘蛛侠电影剧照,眼睛发光,穿着黑暗神级宇宙铠甲,充满橙色能量,被宇宙能量包围,超逼真的史诗镜头
有一说一,CogView-3-Plus还有很大提升空间。
04
清言视频通话功能,用户拨打清言的视频通话窗口,即可与它进行实时视频通话。它的主要特点包括:
多模态交互 : 支持文字、语音和视频交流 实时反应 : 即使被打断也能快速回应 视觉理解 : 可以"看到"和分析用户摄像头画面 语音识别 : 能听懂并执行语音指令
遗憾的是我的申请还没通过,带着大家看看官方的案例吧。
申请方法:打开清言APP,点击底部申请卡片。
也可直接打开这个链接申请:
https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf
这应该是国内第一个类ChatGPT的视频通话功能。
05
我已经不知道这是智谱第几个开源的AI大模型了。
对于个人开发者来说,如果处理小规模的问题,直接接入免费的GLM-4-Flash,直接起飞。
我觉得开源AI大模型,不仅仅是一段代码,它是一种精神,一种将知识与技术自由分享的理念。
它代表着一个更加开放、平等、创新的未来。
智谱做了一个很好的榜样,可能目前还有很多地方还不完善,你知道的,他们每天都在默默地卷。
或许某一天,我们都可以自豪地说,国产大模型才是最屌的。
如果本文章能给你一点启发,感谢点个赞、在看、转发三连,如果想第一时间收到推送,请点上星标⭐关注公众号,回复“知识库”,获取伟豪的精选知识库知识。
扫描下方二维码,获取 副业资料,加副业群交流。