通义千问2.5发布:开源大模型中文智能程度直逼GPT4

乐活   2024-05-10 21:11   英国  

AI领域追求极致,大模型更是其中的典范。近几年涌现了众多现象级大模型,ChatGPT引领了这股浪潮。它遵循团队提出的scaling law不断迭代,据传GPT-4拥有1万亿参数。

除了极大模型,谷歌、微软和阿里等公司也发布了参数量在几亿到几十亿的模型。近期发布的Llama3在网络结构上变化不大,但数据量增加了7倍,性能显著提升。

总的来说,成功的大模型在某些方面都做到了极致。

大模型领域最大的竞争在于开源和闭源之间,这种竞争涉及方方面面。

上图展示了开源和闭源在使用成本、创新、支持、自定义和知识产权上的优劣。以国内为例,总的来说闭源大模型性能体验还不错,但由于完全黑盒,企业用户并不敢轻易采用。

相对而言,阿里的通义千问选择了极致开源,从0.5B、1.8B、4B、7B的小型模型,到14B、32B的中等模型,再到72B、110B的大型模型,一整个全尺寸大语言模型开源。除了语言模型,通义千问还把多模态大模型(视觉理解模型Qwen-VL、音频理解模型Qwen-Audio)开源了。代码大模型CodeQwen1.5、混合专家模型Qwen1.5-MoE也源了。你说这品类齐不齐全。直观感觉是毫无保留了。    

而且他们开源出来的东西都还挺能打。比如,在开放研究机构LMSYS Org推出的基准测试平台Chatbot Arena上,Qwen1.5-72B-Chat模型多次进入“盲测”结果全球Top 10,作为中国唯一代表,与海外大模型相PK。    

最新通义千问1100亿参数开源模型Qwen1.5-110B模型,在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B,登顶HuggingFace开源大模型排行榜Open LLM Leaderboard,成为开源领域最强大模型。    

很长一段时间,ChatGPT、GPT4是公认最强LLM。由于它闭源,所以有些观点认为,闭源大模型的能力深不可测。这方面,通义千问团队也一直在追赶。最新发布的通义千问2.5,性能在中文场景下已经追平GPT-4 Turbo,成为最强中文大模型。

我的观点很简单:开源和闭源并非绝对对立,而是相互促进。    

开源和闭源在大模型领域其实特别像安卓和苹果手机的关系,安卓手机对于想要自己整活的选手特别友好,但是苹果手机就很难做到跟安卓一样的可定制化。开源大模型的优势非常的简单直观。

1 信息本地存储,增强数据安全性和隐私保护

开源大模型的使用非常的简单,简单来说就两步,下载模型,然后运行,比如在Ollama里面用Qwen系列,你只需要一行代码:ollama run qwen

在这个过程中,你无需联网、输入账号密码或验证码。开源大模型可以完全在本地运行,你与大模型的聊天内容完全在本地电脑处理,无需担心数据泄漏。    

2 高度定制化,满足特定企业以及个人需求

OpenAI提供了非常的接口,有语音的,有图像的,有微调大模型,接口设计的非常易用,价格也一调再调,现如今的使用成本已经降低很多了。

         

 

但是依旧存在问题,就是它毕竟是闭源大模型,特别是跟品类特别齐全的开源大模型相比,比如你看Ollama里面的Qwen系列,它提供了非常多的版本可以选择,你要速度快就用小规模参数,反之则有千亿参数级别的开源模型Qwen1.5-110B可以用。             

 



         

 

更重要的,开源意味着你可以随便改他们的模型,换他们的训练数据,甚至改造成特定领域的大模型。
   
因为代码给你了,IP给你了,甚至连训练好的模型参数都给你了,这里面的想象空间就太大了。
你可以看到,通义千问已经跟很多企业或者组织开展了合作,各种对话机器人、语音助手等等。
通用大模型+领域知识 = 神器,毫无疑问,之前看到一个案例,养殖业几十年的经验+数据,Qwen可以很快掌握且直接变成知无不答的机器人供给新人学习甚至直接使用。
特别是开源对于闭源的追赶速度其实飞快,你可以看到,下面这个图里面开源大模型的增长速度明显快过闭源大模型。    
这足以看得出来开源大模型的发展潜力以及超高速的迭代速度,如果你经常使用大模型的话,通义千问现在的使用体验已经非常接近gpt4了,处理文件、联网搜索,体验非常的接近。    
         

 

极端一点儿,如果没有开源大模型带来的压力,估计GPT4会在很长一段时间内不会有更新。开源大模型所特有的高度可定制化,在未来一段时间内会在AI应用以及生态上展现其特殊性。    


平凡的平凡
偶然所做。
 最新文章