国内197个AI大模型,哪个最有前途?

文摘   2024-09-10 18:18   北京  

这是薛老板求职系列的第704篇文章

截止到2024年9月,网信办备案AI大模型数量已达197个,这些大模型哪个最有前景?相信是很多人的疑惑。


因为我目前也在AIGC领域创业,发现可以比普通大厂员工拿到更多的信息,因为我日常需要跟大量的AIGC创业者、大厂AIGC部门负责人、AIGC猎头等人沟通,我可以从他们身上学到很多。
通过我掌握的资料,个人会认为大厂里面最有前途的是字节和百度。

百度

百度为什么是大厂里面有前途的呢?

  • 百度有先发优势。文心一言是国内第一个正式发布的中文大模型,目前仅 C 端就已经有上百万的 DAU。目前已经达到 GPT-3.5 和 GPT-4之间的水平,部分中文能力已经达到 GPT-4。
  • 百度顶层重视程度高。在文心一言最关键的一段时间,Robin 每天都要听取文心一言团队的汇报。GPU 是唯一需要 Robin 亲自调度的计算资源。
  • 百度有很多文本数据积累。在移动互联网之前,百度是中文互联网最大的公开数据汇聚地。移动互联网的数据大部分是烟囱化的,很多甚至是私有的。百度的数据团队也非常强,数据采集、数据清洗都是相当专业的。

字节

为啥觉得字节有前途的呢?

  • 字节有落地场景。比如现在做视频生成的很多,字节暂时并没有像 Runway、Pika那样做端到端的生成,而是走了更务实的路线,把 AI 能力放到剪映里面,使用户更容易创作短视频,但是字节视频生成的落地场景是一点都不缺的。

  • 字节有最多的多模态中文私有数据。高质量数据在大模型训练中是非常关键的。中文高质量的公开数据本来就不多,现在基本上已经被爬干净了,2026年高质量语库即将耗尽。大模型的下一站肯定是多模态,字节有最多的多模态数据。


    字节有很多GPU资源。早在几年前,字节就开始做大规模 GPU 集群,积累了很多 GPU 资源,今年初 GPU 荒的时候,火山云靠着屯的 GPU 卡一跃成为国内第二大 GPU 云服务商。字节几年前就开始搞大规模RoCE网络来做 GPU 集群互联了,能搞定这个的全球就没有几家,微软是规模最大的,今年刚发了 paper。

注意豆包用的并不是字节最新的大模型,所以豆包用的模型并不能反映字节大模型的最新进展。字节目前大模型的水平虽然还不如百度,但发展的加速度比较大。
当然,阿里、腾讯、华为也各有各的优势,比如阿里的 GPU 多、Infra先进,腾讯有落地场景,华为有自己的 AI 芯片。但目前发布的大模型水平还不如百度和字节。

那其他公司呢?

我没有办法逐一对其他公司发表评论。但是我们可以通过探讨几个问题,让大家对于"一个大模型产品是否有前途"这类问题有更深的思考和认识:
1、开源大模型一定比闭源的有前途吗?
2、参数量大的模型一定就比小模型有前途吗?
3、榜单排名高的大模型一定更有前途吗?
中国本土大型模型的崛起进程始于2017年,当时中国的科研机构与企业积极投身深度学习与自然语言处理领域,默默耕耘,蓬勃至今。
这次的人工智能大模型浪潮带来了许多机遇,去年大模型算法工程师的平均月薪已超 4w,今年AI大模型相关岗位需求增长超 300%,现在正是程序员和产品经理等技术相关人才入局的最佳时机。

开源大模型一定比闭源的有前途吗?


在中国,大型模型可分为两大类,一类以模型本身为核心,另一类则以服务应用为主导。
首先是以Chat GLM和百川为代表的通用开源模型。它们的独特之处在于在中文语境下的出色表现。
开源模型的优势在于易于使用,只需强大的GPU即可运行。不足之处在于主观体验和论文中的数据可能存在差异。
在我国,目前还是以第二类大型模型主要以服务为主导,如大家比较关注的百度、科大讯飞等推出了通用大型模型。
这些模型不开源,用户需通过其提供的服务来使用。它们不仅提供聊天服务,还需要在特定场景中应用以实现盈利。这些模型的服务模式和费用基本与Chat GPT及其他竞争对手保持一致,以在市场竞争中取得优势。
当然,开源是有一定的技术及成本优势的。
首先,庞大参数数量的开源大型模型,性能已媲美超级规模封闭模型。其次,通过极少的预算、适度的数据和低阶适应技术(LoRA)等工具,就可以使参数相对较小的开源大型模型达到令人满意的性能水平。
这种技术创新降低了训练成本,为企业提供了可替代昂贵闭源模型的低成本解决方案。
自Llama2后,大模型圈风雨欲来,可商用开源成为了下一个各大厂商牟足了劲头实现的目标。可是否开源,难道就是最终评判某个大模型是否可以在这个斗兽场里存活的标准吗?

参数量大的模型一定就比小模型有前途吗?


这两天刚有一篇微软论文指出,ChatGPT的参数量只有20B(200亿),而不是以往认为的100B以上(很多人认为是175B)。
相比单一的参数量维度,宏观来说,大模型的评价其实可以分为以下几个维度:技术维度、商业应用、伦理责任
从技术角度来讲,哪个模型在深度学习、自然语言处理、计算机视觉等方面有独特的技术优势是最底层的核心逻辑。
在此之上,模型的性能通常受训练数据和计算资源的限制。哪个模型拥有更多、更多样化的数据,以及更先进的计算能力?这将直接影响模型的前途。
从应用角度来说,大模型厂商自身是否制定了更具前瞻性的商业策略、合理的商业模式,是其长期存活市场的基础。而其选择的赛道是否满足了标的市场的实际需求,在细分垂直领域的适用性能做到最好,市场是否买单,就是保证它前途光明的必要条件。
最后一个,也是全世界都在面临的同一个问题,就是机器伦理与合规。哪个模型在道德和伦理方面表现出更高的责任感?是否有明确的道德准则,以确保模型在使用中不会伤害社会和个体?哪个模型有更好的合规准则?更好的数据隐私保护和安全措施?

榜单排名高的大模型一定更有前途吗?


其实,内网也早已流传着一份针对于中文通用大模型的综合性测评基准(SuperCLUE),月度更新。

我的建议是:榜单仅供参考。对于用户来说,开源/闭源,语料库的偏向性,应用赛道的数据需求等等问题太多了,这些都会影响最终榜单的排名。
某AI大厂的架构师就曾经私下说,他们在开发自己的应用模型时,把C-Eval排行靠前的几家都试了一下,效果不好说,某个炒的比较热的模型甚至很意外的崩了。虽然他总是嚷嚷着公司抠没钱自己开源,但好处是也让他挖掘到了一些物美价廉的小LLM,发现实际体验感反而不错。
因此,排名不能完全代表“有前途”,投得热也代表不了“有前途”,甚至广泛意义上对话的人数量够多….
AI大模型涌现元年,资本巨头联合科技大佬们开始一场“诸神之战”,不断扩展数据池,升级硬核算力。
高昂的成本,意味着绝对高门槛。不只如此,AI 2.0的创业者们要玩得起,技术要求也跃升了一个档次。
据悉,能够把基础模型打造成工程化产品的公司,在一两百个大模型中,用两只手就数的过来。也正是因为如此,招兵买马是头等大事,毕竟国内主导深度学习框架和AI框架的高手寥寥可数。




转行/求职产品必备



如果想要进入AIGC领域做产品经理,推荐我们的《AIGC产品实战特训营》
面向群体:0经验转行想要求职AIGC产品经理的人
项目优势:
1)小班制,每一期10个人左右。个性化好,1对1背景诊断以及项目方向定制。
2)课程系统性强:课程会深度讲解机器学习强化学习、深度学习大模型相关,所以没有算法基础的同学不用担心
3)手把手带着做的项目属于招聘量大、求职成功率高、薪资高的对话类(对话机器人)和图片类(类妙鸭相机)两个项目,这两个项目都是落地项目,不是虚拟项目
4) 百度资深AI面试官1对1的简历修改和模拟面试服务,无须额外付费。
5)有任何疑问都可以免费在2V1服务专属群提问
6)如果错过直播,每次直播都有直播录屏可以观看回放
7)额外福利:免费复训如果一期课程感觉吸收不好,目前提供免费复训机会。
详细说明:
真心建议大家冲一冲新兴领域,工资高前景好【AIGC篇·第6次迭代更新】
真心建议大家冲一冲新兴领域,工资高前景好【AIGC篇·第7次迭代更新】

薛老板AIGC和新能源求职
前百度、京东10年资深产品经理 畅销书《产品经理求职面试笔记》作者,全网粉丝20W 助力转行年薪40W+新能源/人工智能/互联网产品 已帮助5000+学员入职排名前10一线大厂......
 最新文章