首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

国内12家主流大模型，谁是地表最强？亲测后发现是它！。。。

科技 2024-11-19 09:44 美国

你好，我是郭震

大模型GPT-3.5，2022年11月发布。

可谓春风化雨，雨后春笋一般。

到现在2024年，国产大模型工信部注册的，已有几百家。

国产大模型崛起速度之快，令人惊叹。

在如此之多的大模型里面，如何选择好用的，还真是个问题。

结合GPT4o和Claude3.5，加上自身的一定使用，总结了如下12家国产大模型：

下面表格，排名不分先后

各自产品对应的logo如下：

文字版介绍：

1 百度：推出了“文心一言”大模型，具备强大的自然语言处理能力，广泛应用于搜索、对话等领域。

2 阿里巴巴：发布了“通义千问”大模型，支持多种语言理解和生成任务，应用于电商、云计算等场景。

3 腾讯：研发了“混元”大模型，强调多模态融合，应用于社交、游戏等领域。

4 华为：推出了“盘古”大模型，专注于自然语言处理和计算机视觉，应用于云服务和智能设备。

5 科大讯飞：发布了“星火认知”大模型，强调语音识别和自然语言理解，广泛应用于教育和办公领域。

6 商汤科技：推出了“日日新”大模型，专注于计算机视觉和多模态融合，应用于安防和自动驾驶等领域。

7 智谱AI：研发了“GLM-4”大模型，具备强大的语言理解和生成能力，应用于科研和教育领域。

8 字节跳动：推出了“豆包”大模型，应用于内容创作和推荐系统。

9 360公司：发布了“360智脑”大模型，强调安全性和信息检索，应用于搜索和安全领域。

10 昆仑万维：天工AI，双千亿级大语言模型，国内首个AI搜索产品“天工AI搜索”。

11 快手：推出了“可灵AI”大模型，应用于短视频内容创作和推荐。

12 月之暗面科技：研发了“Kimi”大模型，专注于对话式服务和智能助手。

看到这里的老铁，可能会有问题，哪家最强呢？

就要看如何评价一个大模型的能力，有三个最重要的指标。

一般来说，衡量指标有三个：第一：文本生成能力；第二：任务推理能力；第三：通用和泛化能力。

文本生成能力：文本生成能力指模型在自然语言生成中的流畅性、语义相关性和多样性。常用评估方法包括困惑度（Perplexity）、BLEU和ROUGE等指标。

推理能力：推理能力反映模型在逻辑推导、知识应用和因果推理任务中的表现。强推理能力使模型能够理解上下文并完成复杂问题的解答。

泛化能力：泛化能力体现模型在未见过的数据或任务上的适应性。优秀的泛化能力意味着模型能跨领域、跨语言和多模态高效工作。

而数学推理能力又是重中之重，它体现了模型的智力水平，推理能力强，才能应对复杂任务。

而咱们平时的需求，主要也是以复杂任务为主，否则我们也不会使用它们，简单的任务，咱们自己就能做了；重复的任务，咱们写几行代码，就自动化了。

目前openAI的o1推理能力公认最好的，我询问了它，给出数学推理能力前三强：

但是它的知识目前只学习到了2023年10月，所以排名只能参考。

为了进一步客观，我又询问了数学推理能力很强的Claude3.5 ，它的回答如下：

总结来说，智谱GLM-4，文心一言，通义千问，KIMI，是o1和claude3.5给出的答案。

第一轮筛选过后，我再亲测上面上榜四个大模型。

测试方法，选择一个标准数学数据集，就拿GSM8K吧，先找一道典型题目，逐一询问它们。

选择下面这道：

为什么选择这道题目呢，因为GPT-4o这道题目都无法给出准确答案。

如下所示，给出答案8，这是错误的：

这就热闹了，看看国产大模型能否答对。

先提问智谱GLM-4，答案10，回答正确：

再提问文心一言，使用3.5，得到答案是8，回答错误。已开通会员的可以试试文心4回答是否正确：

再提问通义千问2.5，结果10，回答正确：

最后提问KIMI，结果8，回答错误：

经过第二轮一道题测试，发现回答正确的大模型，剩下两个，分别是GLM-4、通义千问。

最后一轮测试，选择一道2024年全国卷高考数学题，找一道我还会的选择题

我做了下，答案是B：

先提问GLM-4，回答B，结果正确：

再提问通义千问，回答A，结果错误：

顺便提问了下GPT-4o，它选了C，又错了：

经过三轮数学测试，就剩 GLM-4。

国产大模型的智力水平，目前已经有超越GPT-4o的趋势，让人惊艳！

期待国产大模型和厂家们再接再厉，不断突破。

备注：要想得出更加客观全面的智力水平，请参考基于不同整个数据集、不同推理水平测试维度的全面评价，本测试限于篇幅，只做初步测试。

今年大厂面试，竞争激烈，学校好，技术好，才能占得先机，学校不好只能加倍强化技术，才会有更多机会。

AI教程免费学习访问入口：

https://zglg.work

更多开源教程访问网站免费学习

普通人了解AI应该做的最重要两件事：

应该先从AI工具使用开始
应该先了解AI基础名词

普通人了解AI大忌：

不应该上来就学AI理论
不应该排斥AI，认为AI无用

基于上面，我也花费不少时间，做了一个详细的开源教程：《普通人学AI指南》.PDF

咱们先别弄那些高深的AI理论，先玩熟AI基本概念、AI工具、自己电脑搭建AI和知识库。

PDF 指南思维导图

这个《普通人学AI指南》PDF，一共42页，都是我来编写的，完全开源，大家在我下面的公众号回复：AI，直接拿走。

以上就是这篇文章。如果对你有用，随手点个赞、在看、转发三连吧，如果以后想第一时间收到推送，也可以给我个星标⭐。谢谢你看我的文章，咱们下篇文章再见。

点击阅读原文，从零学习AI

http://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247516636&idx=1&sn=21e83c2338899cfc34024499362c7b43

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

最新文章

大模型算法岗工资都是4开头了吗！。。。

国内12家主流大模型，谁是地表最强？亲测后发现是它！。。。

985计算机硕士，拿了10个offer。。。

字节2024年不同岗位的薪资表，差别蛮大。。。

终于可以这样在线刷题、在线编程了，好用到爆！。。。

文字转图表，这个AI工具秒杀PPT。。。

字节不同职级薪资待遇一览表。。。

他偷瞄的AI神器，竟是百度网盘的隐藏功能。。。

AI“底裤“被扒，百度文库上榜。。。

值得去的16家IT公司及待遇（西安篇）。。。

现在大专生年薪都35万了吗！。。。

飞行员薪资曝光，程序员看完后傻眼了。。。

值得去的20家国企名单（北京篇）。。。

值得去的15家IT公司及待遇（苏州篇）。。。

爆了！这个AI 应用开发。。。

值得去的25家IT公司及薪资（成都篇）。。。

值得去的20家央国企名单。。。

清华硕士8面字节，最后被拒。。。

爆了！阿里再次第一。。。

快手不同职级薪资待遇一览表。。。

程序员炒股亏了48万。。。

比亚迪在越南员工的薪资曝光。。。

值得去的20家IT公司及薪资（杭州篇）。。。

他19天副业收入过千。。。

拼多多不同职级薪资待遇一览表。。。

80w起！零成本快速入门大模型指南

来了！GPT4.0接入个人微信！！

全球顶尖AI人工智能大集合：ChatGPT、Midjourney、Suno、Luma等等

2024年民企前35强榜单一览表。。。

美团不同职级薪资待遇一览表。。。

纽约街头偶遇马云。。。

值得去的20家IT公司及薪资待遇（广州篇）

一条短视频赚了2154元（附教程）。。。

华为不同职级薪资待遇一览表。。。

值得去的30家IT公司（深圳篇）。。。

哇，OpenAI又一重磅功能来袭。。。

百度不同职级薪资一览表

值得去的IT公司（上海篇）。。。

比亚迪员工突然收到8万6千多的奖金。。。

院士密集发声在提醒我们什么？

小米不同职级薪资一览表

值得去的IT公司（北京篇）。。。

鹅厂不同职级薪资待遇一览表

值得去的IT公司前10名榜单。。。

简历投了上百家，0面试正常吗？

京东不同职级薪资待遇一览表

师兄学历变强了，但找工作却血亏了。。。

严重了！ "AI程序员"要来了。。。

阿里不同职级薪资待遇一览表。。。

AI生成各种证件照工具火了，又能省钱了。。。

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉