通义千问2.5发布：开源大模型中文智能程度直逼GPT4

乐活 2024-05-10 21:11 英国

AI领域追求极致，大模型更是其中的典范。近几年涌现了众多现象级大模型，ChatGPT引领了这股浪潮。它遵循团队提出的scaling law不断迭代，据传GPT-4拥有1万亿参数。

除了极大模型，谷歌、微软和阿里等公司也发布了参数量在几亿到几十亿的模型。近期发布的Llama3在网络结构上变化不大，但数据量增加了7倍，性能显著提升。

总的来说，成功的大模型在某些方面都做到了极致。

大模型领域最大的竞争在于开源和闭源之间，这种竞争涉及方方面面。

上图展示了开源和闭源在使用成本、创新、支持、自定义和知识产权上的优劣。以国内为例，总的来说闭源大模型性能体验还不错，但由于完全黑盒，企业用户并不敢轻易采用。

相对而言，阿里的通义千问选择了极致开源，从0.5B、1.8B、4B、7B的小型模型，到14B、32B的中等模型，再到72B、110B的大型模型，一整个全尺寸大语言模型开源。除了语言模型，通义千问还把多模态大模型（视觉理解模型Qwen-VL、音频理解模型Qwen-Audio）开源了。代码大模型CodeQwen1.5、混合专家模型Qwen1.5-MoE也源了。你说这品类齐不齐全。直观感觉是毫无保留了。

而且他们开源出来的东西都还挺能打。比如，在开放研究机构LMSYS Org推出的基准测试平台Chatbot Arena上，Qwen1.5-72B-Chat模型多次进入“盲测”结果全球Top 10，作为中国唯一代表，与海外大模型相PK。

最新通义千问1100亿参数开源模型Qwen1.5-110B模型，在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，登顶HuggingFace开源大模型排行榜Open LLM Leaderboard，成为开源领域最强大模型。

很长一段时间，ChatGPT、GPT4是公认最强LLM。由于它闭源，所以有些观点认为，闭源大模型的能力深不可测。这方面，通义千问团队也一直在追赶。最新发布的通义千问2.5，性能在中文场景下已经追平GPT-4 Turbo，成为最强中文大模型。

我的观点很简单：开源和闭源并非绝对对立，而是相互促进。

开源和闭源在大模型领域其实特别像安卓和苹果手机的关系，安卓手机对于想要自己整活的选手特别友好，但是苹果手机就很难做到跟安卓一样的可定制化。开源大模型的优势非常的简单直观。

1 信息本地存储，增强数据安全性和隐私保护

开源大模型的使用非常的简单，简单来说就两步，下载模型，然后运行，比如在Ollama里面用Qwen系列，你只需要一行代码：ollama run qwen

在这个过程中，你无需联网、输入账号密码或验证码。开源大模型可以完全在本地运行，你与大模型的聊天内容完全在本地电脑处理，无需担心数据泄漏。

2 高度定制化，满足特定企业以及个人需求

OpenAI提供了非常的接口，有语音的，有图像的，有微调大模型，接口设计的非常易用，价格也一调再调，现如今的使用成本已经降低很多了。

但是依旧存在问题，就是它毕竟是闭源大模型，特别是跟品类特别齐全的开源大模型相比，比如你看Ollama里面的Qwen系列，它提供了非常多的版本可以选择，你要速度快就用小规模参数，反之则有千亿参数级别的开源模型Qwen1.5-110B可以用。

更重要的，开源意味着你可以随便改他们的模型，换他们的训练数据，甚至改造成特定领域的大模型。

因为代码给你了，IP给你了，甚至连训练好的模型参数都给你了，这里面的想象空间就太大了。

你可以看到，通义千问已经跟很多企业或者组织开展了合作，各种对话机器人、语音助手等等。

通用大模型+领域知识 = 神器，毫无疑问，之前看到一个案例，养殖业几十年的经验+数据，Qwen可以很快掌握且直接变成知无不答的机器人供给新人学习甚至直接使用。

特别是开源对于闭源的追赶速度其实飞快，你可以看到，下面这个图里面开源大模型的增长速度明显快过闭源大模型。

这足以看得出来开源大模型的发展潜力以及超高速的迭代速度，如果你经常使用大模型的话，通义千问现在的使用体验已经非常接近gpt4了，处理文件、联网搜索，体验非常的接近。

极端一点儿，如果没有开源大模型带来的压力，估计GPT4会在很长一段时间内不会有更新。开源大模型所特有的高度可定制化，在未来一段时间内会在AI应用以及生态上展现其特殊性。

http://mp.weixin.qq.com/s?__biz=MzAwNzMwOTcyNQ==&mid=2455657554&idx=1&sn=685672f17f8d56a038742213c3d60d12

平凡的平凡

偶然所做。

最新文章

AI时代还有必要学计算机编程吗？Python是否还是最优选

本科生科研能力的两种路子：有靠山，靠自己，还是做曹原那样的天才？

怎么看待大学里很水的老师？

博士学位，就是一种明码标价的商品，不必神话它

读博期间如何保持科研干劲避免burn out？

计算机是最难的工科吗？

如何理解“英语+一门技能=王炸”？

深度体验Cursor三周后，这3个tips一定要注意

除了ChatGPT，还有哪些好用的AI工具？

普通人如何抓住AI这个风口?

小红书的封闭内容都可以被搜索的到？AI搜索引擎太强悍了

学生该不该买ChatGPT?

暑假后高达一万的天价账单，刺痛了多少“寒门父母”?

LLM大模型的微调原理以及ChatGPT的API微调操作实践

AI 发展真的会让大部分人失业吗？普通人如何用 AI 提升工作效率？

GPT4o被证实有了中度自我意识，那离强人工智能还远吗？

目前AI领域的自媒体怎么赚钱呢？

学历贬值太快，这类学校的研究生就业可能不如本科

AI公司的“养鱼”战术：免费服务背后的长线布局

揭秘国内大厂高薪招聘：顶尖人才争夺战

AI搜索引擎的结果可信度并没有多高

AI写的内容，确实太容易分辨了

用AI写小说可能是下一次风口

为什么AI眼中9.11大于9.9呢？

老外这次是真的惊了，中国版Sora，可灵开放全球测试

别再被AI忽悠了！手把手教你写出杀手级Prompt

为什么全球只有中美能领先AI创新？

如何看待斯坦福大学报告称：中国人对AI态度最为积极

李彦宏：开源模型是智商税？

AI发展到现在，国内大模型行业还有哪些机会？

为什么这波 AI 浪潮没有带来大量的就业岗位

详细教程：自定义大模型之微调ChatGPT

AI搜索引擎，一个普通搜索引擎的二道贩子

AI 时代，高考选什么专业比较有前景？

聊聊姜萍那套题

卷起来，用AI写高考作文啦

AI时代，对于汉语编程来说是危机还是机遇?

如何让大语言模型输出JSON格式？

通义千问2.5发布：开源大模型中文智能程度直逼GPT4

分享10款能够自动生成视频的AI软件

十天能不能写完一篇毕业论文

震撼揭秘：仅需15秒，打造你的声音分身！

用AI视频将旅行世界具象化

FittenCode: 比Github Copilot性能更强，而且免费的AI代码辅助编写工具

国内有哪些收费较便宜，还很好用的AI工具？

全面超越GPT4的Claude3，能否通过“大海捞针”实验？

使用好了ChatGPT，你将拥有一个全能辅导老师

马斯克以违反合同为由起诉 OpenAI 及其 CEO 萨姆·奥特曼，哪些信息值得关注？

为什么发布ChatGPT后，国内很快就如雨后春笋，是在之前就已经开始训练了吗？

DeepMind 提出可交互生成式世界模型 Genie，有什么意义？和 Sora 比有什么不同？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉