LLaMA系列一直在假装开源...

科技 2024-11-04 12:40 上海

伙伴们，很奇怪~ 关于LLM的开源与闭源模型的竞争又开始愈发激烈。

众所周知，开源模型以其开放性和社区驱动的特点受到一部分用户的青睐，而闭源模型则因其专业性和性能优化被广泛应用于商业领域。由于大模型最近2年的突然兴起，开源社区对“开源”有了重新定义。终于开放源代码倡议（OSI）于10月2日首次发布了开源 AI 定义的暂行版本 1.0，其中Meta 和 Google等作为其重要参与者，为LLaMA等披上了“开源”的外衣，为什么这么说呢。于是这次专门写个文章主要想通过技术、商业等层面的比较，一起探讨下开源、假装开源和闭源这件事。

(: 主要是网上吵的太厉害。。谈谈鄙人浅薄的看法吧。。

到底啥是开源、假装开源和闭源？

在讨论开源与闭源模型的优劣之前，我们首先要明确两者的定义。开源模型指的是那些源代码、数据集、训练过程等对公众开放，允许自由使用、修改和分发的模型。假装开源就比如LLaMA等大部分目前所谓的开源模型，因为它们只开源了模型参数而已。而闭源模型则是这些要素不公开，通常由单一实体控制，使用受限的模型。开源模型因其透明性和社区参与度高而受到一部分开发者的喜爱；假装开源模型则可以让我们感觉到自我认为我们能掌控该模型的所有；但闭源模型在性能优化、安全性和专业性服务方面可能更具优势。

开源模型的最大特点是其开放性，这使得全球的开发者都可以参与到模型的改进和创新中来。然而，这种开放性也带来了一定的风险，比如安全漏洞和隐私泄露。相比之下，闭源模型由于其源代码和数据集的不公开，能够提供更好的安全性和隐私保护，同时，专业的团队也能够对模型进行更深入的优化。大家可能会搞混淆的另一个概念是软件开源，这俩的区分是：软件开源主要针对应用程序和工具，开源的资源需求较低，而大语言模型的开源则涉及大量计算资源、训练细节、高质量数据和最终的模型参数，并且可能有更多使用限制。

技术层面的比较

在性能与优化方面，闭源模型通常由专业团队进行优化，能够针对特定的应用场景进行定制和调整，因此在性能上可能更优。假装开源模型因为不开源优化细节trick等非常核心的部分，导致大家无法复现其完全公布的性能，只能接近；而开源模型能够快速集成社区的创新，但其优化速度和效果往往受限于社区的活跃度和技术能力。数据集与训练过程也是衡量模型优劣的重要指标。闭源模型可能使用更高质量或更大规模的数据集进行训练（默认闭源都是公司级别主导的）；假装开源模型则不公开数据集和具体训练过程，只能让你用训好的模型，但无法改进，在不这样的情况下train或者sft模型直接会影响了模型的准确性和鲁棒性的...；而开源模型的数据集和训练过程可能不够完善。

在安全性与隐私方面，闭源模型由于其不公开的特性，能够更好地控制数据的使用和流动，从而提供更好的安全性和隐私保护（意思就是你看不到我数据，无法直接发现我的漏洞）。假装开源模型可以直接让大家通过各种后门攻击来直接测试漏洞是否存在，很危险。而开源模型必然也可能存在安全漏洞和隐私泄露的风险，尤其是在数据集和训练过程中，但是能够和黑客进行攻防战，在不涉及难以挽回的场景下，可以不断优化安全领域的研究工作~

易用性与支持也是用户选择模型时考虑的重要因素。闭源模型通常提供专业的技术支持和客户服务，易用性较高。而假装开源和开源模型一样了，虽然社区活跃，但支持可能不及时或不专业，这对于需要快速解决问题的用户来说可能是一个缺点。

实际案例分析

以Meta的LLaMA模型为例，尽管LLaMA模型开源，但其使用条款中存在一定的限制，比如对于拥有超过7亿用户的应用程序的商业用途限制，以及不提供对训练数据的访问，这导致其不符合开放源代码促进会（OSI）的开源标准。这表明即使是开源模型，也可能存在使用上的限制，并不总是能够满足用户的需求。

另一方面，OpenAI的ChatGPT（o1-mini/o1-preview/GPT-4o等）以及国内百度的ERNIE模型作为闭源模型，虽然也被诟病不开源啥的，在实际应用当中表现出了更高的性能和易用性（难以想象吧~）。通过对少量数据的精调和后预训练，ERNIE模型在AI续写等场景中的表现优于同等参数规模的开源模型，这证明了闭源模型在特定业务场景下的优势。

商业与市场角度

从商业模式的角度来看，开源模型可能依赖于社区和广告收入，其商业模式可能不如闭源模型明确。闭源模型通过订阅服务和专业技术支持创造收入，商业模式更为成熟和稳定~

哎，还是钱钱钱~ 没办法~

在市场竞争力方面，闭源模型因其专业性和性能优化，在专业领域和高端市场中更具竞争力。而开源模型则在教育和非盈利领域更受欢迎，因其开放性和低成本的特点。

结论

综上所述，开源模型并不一定比闭源模型好。现在突然想到了某度老板曾说过：开源模型会越来越落后。当初不以为然，现在深层考虑下，好吧，或许说得也有些道理。

选择模型时应考虑具体的业务需求、技术条件以及市场环境。开源模型的开放性和社区驱动的特点在某些场景下具有优势，而闭源模型在性能优化、安全性和专业性服务方面可能更胜一筹。因此，用户在选择模型时，应根据自身的需求和条件，做出最合适的选择。

但是对于咱们普通人来说，随便玩玩模型，当时我必站队开源啊，否则我咋发论文？科学咋进步？嘿嘿~

公司那种高端服务，对于准确率和成本还要求特别严格的，还是踏踏实实选择闭源的服务吧。开源你玩不起，成本你都hold不住，谁让它们假装开源！给你400+B的我看你finetune到啥时候才能商用~

说到这吧，下课~

备注：进群，进入大模型技术群

id：duibai997，记得备注呦

你好，我是对白，硕士毕业于清华，大厂算法工程师，拿过8家大厂算法岗SSP offer

创业做过无人机、机器人和互联网+教育，保研清华后开始系统接触AI。

我每周至少更新一篇原创，分享AI算法、技术干货和职场感悟。下方关注可加我私信交流，点击蓝字查看我的算法学习之路。

期待你关注我的公众号，一起交流与进步。

您的“点赞/在看/分享”是我坚持最大动力

坚持不易，卖萌打滚求鼓励 (ฅ>ω<*ฅ)

在看

对白的算法屋

清华大学硕士，大厂算法工程师。写过书，创过业，做过产品，分享技术、快乐、财富与职场。

最新文章

腾讯开源宇宙最强MoE大模型Hunyuan

LLaMA系列一直在假装开源...

姜萍造假实锤！阿里数赛出结果。。。

KAG开源了，知识增强掀翻RAG，性能翻倍

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI-O1之下，我们技术该何去何从

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

万字长文梳理LLM+RLHF的脉络

Google DeepMind最新研究成果来了！模拟人类的思考

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

OpenAI终于open了，开源多智能体框架Swarm~

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

字节用大模型做推荐了！！

微调大模型前，重写SFT数据？

国产AI大模型登顶全球TOP 1！

现代LLM基本技术整理

红杉专访OpenAI O1团队全文记录

多模态大模型技术点总结

清华微软最新力作：用物理学革新Transformer注意力，精度暴涨30%！

诺尔贝物理学奖，为何授予Hinton？

和Boson李沐等大佬们进行了一场对话！

算法工程师修炼之路

30 天 52% 回报：GPT-4o 量化交易机器人

顶会卷到中学了！人大附中高中生入选NeurIPS

成人站 OnlyFans，42 名员工，创造 66 亿美元营收，超过所有 AI 公司

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

OpenAI o1 self-play RL 技术路线推演

Qwen2.5感觉成了，热泪眼眶

大模型千卡训练-经验指北

聊一聊大模型六小虎生存现状

字节三面被问 RAG 原理了，要凉…

2024大模型面试八股（含100道答案）

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

浅谈Role Play：从当红炸子鸡到无人问津

关于 GPT5 训练失败的思考

Yann LeCun：建议学生不要在大模型方向工作？

2024大模型秋招面试被锤大赏！

大模型是一场泡沫？

入坑大模型18个月的反思与贩私

这段时间搞大模型的血和泪

大模型SFT的局限性

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

李沐：大模型发展趋势与个人职业选择

《黑神话·悟空》是用什么编程语言开发的？

黑神话悟空，电脑与 PS5 的画质差别有多大？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉