不是OpenAI用不起，而是开源AI模型更有性价比？

科技科技 2024-11-07 08:30 北京

大数据产业创新服务媒体

——聚焦数据 · 改变商业

尽管OpenAI因为不“open”而备受争议，每一次新模型发布、每一项功能更新，都能引发全行业的关注与跟进，并且以1570亿美元的估值成为“最贵”的AI初创企业，远超任何一家开源AI公司。同样的，Anthropic 也凭借 184 亿美元的估值领先大多数开源 AI 企业。

然而，最近的种种迹象表明，企业似乎正悄然向开源 AI 模型倾斜：

Meta的Llama模型下载量同比增长10倍，突破3.5亿次；AI基础设施服务商 Groq 报告称开源模型用户数量大幅攀升；AWS AI基础设施副总裁巴斯卡·斯里达兰也证实："近几月开源模型的需求明显上升"。

是什么引发了这种转变？要解答这个问题，我们可以从开源与闭源 AI 模型的核心区别入手。

为更好理解两者差异，不妨回顾一下软件领域中的开源和闭源概念。

开源软件以其源代码完全公开著称，任何人都可以自由查看、修改和分发。Linux、Apache 和 Firefox 等广受欢迎的项目，正是得益于这种开放协作的开发模式。在GPL、MIT等开源许可证的保障下，开发者们不仅获得了创新和学习的机会，还能快速响应问题修复和功能优化。

与之相对的是闭源（专有）软件，如Windows操作系统和Adobe Photoshop。它们的源代码对外部严格保密，用户只能在限定范围内使用，无法进行代码层面的修改。这种模式虽然有利于保护知识产权，但也限制了用户的自主权，一旦遇到问题只能被动等待官方更新。

我们可以看到开源软件强调的是共享和协作，而闭源软件更注重控制和保护知识产权。

开源 AI 的定义在很长时间内较为模糊，直到十月底，开放源代码倡议（OSI）发布了《开源 AI 定义》（OSAID）1.0版本，首次为“开源 AI”设立标准。根据OSAID，开源AI模型需满足两大核心要求：

1. 提供足够详细的信息，确保任何人都能“实质性地”重建模型。

2. 公开披露训练数据的关键细节，包括数据来源、处理方式以及获取或许可的途径。

这意味着开源AI模型应具备完全透明性，让人们不仅能理解其构建过程，还能获取所有核心组件，如训练与数据过滤的完整代码，且这些内容应可用于进一步开发与利用。

不过，按照这个“超严格”的标准，市面上许多标榜“开源”的AI模型可能并不符合要求，因为它们通常未公开实际训练所需的完整数据集。

在 Reddit 关于开源AI模型定义的讨论中，不少用户提出了更激进的看法。

他们认为，几乎没有AI公司真正“创造”过训练数据。大多数公司所使用的数据源来自互联网的公开资源，如Discord、Reddit、Twitter、YouTube、图片库、小说平台、维基百科、新闻网站等。AI公司所做的只是投入大量资金在硬件和算力上，以实现这些数据的高效利用和模型训练。因此，从公平性角度而言，这些模型理应开源，以便公众也能访问和使用，避免资源垄断。

当然，我们不走极端，今天讨论的开源AI模型主要指的是像Llama和Mistral这样的实际应用中的主流选择。它们虽然在完全公开所有训练数据方面尚未达到“极致透明”的标准，但依然向外界提供了相当高的开放度。

以GPT-3为代表的闭源AI模型则完全掌控在内部开发团队手中，外部开发者难以了解其内部机制。闭源模型的架构、优化和参数调整由公司全权控制，开发成本也极为高昂，因为研究、开发和维护全部由内部完成，缺少外部社区的成本分担和协作支持。

简单来说，开源AI模型强调透明性和共享，促进社区的协作，而闭源AI模型则注重控制和独占技术，以保护公司利益和知识产权。

不是OpenAI用不起，而是开源AI模型更有性价比

先摆结论：整体而言开源AI模型定价更低。

这是因为它的优势在于灵活性、成本低，企业可以将其部署在自有服务器或云平台上，摆脱对第三方API的依赖。同时，开源社区的协作带来了架构优化和效率提升，显著降低了单个机构的研发成本，提升了安全性和可控性。

而闭源模型依赖内部资源，缺乏外部协作，叠加数据采集、模型训练和算力资源等成本高企，导致研发成本偏高，收费标准自然水涨船高以支撑其商业模式。

让我们来对比开源与闭源AI模型的定价（按每百万个token计）：

● 开源阵营（在亚马逊Bedrock上的价格）

Llama 3 8B：输入$0.4，输出$0.6
Mistral 7B：输入$0.15，输出$0.2

● 闭源阵营

GPT-4：输入$2.5，输出$10
Claude 3.5 Sonnet：输入$3，输出$15

从成本上看，GPT-4约为Llama 3 8B的6-16倍，是 Mistral 7B的17-50倍；而Claude 3.5 Sonnet更昂贵，是 Llama 3 8B的7.5-25倍，Mistral 7B的20-75倍。

在参数规模方面，尽管GPT-4和Claude 3.5 Sonnet大于Llama 3 8B和Mistral 7B，但对于大多数企业应用场景而言，8B或7B参数规模的模型已经足以胜任日常 AI 任务，如文本生成、实时问答和数据分析。这些开源模型不仅部署成本更低、响应速度更快，也更符合实际业务需求。

当一款价格仅为GPT-4二十分之一的模型便能满足80%的业务需求时，企业自然会选择它。

AI模型成本的下降主要受到技术进步、市场竞争和云计算优化的推动：更高效的模型架构和训练方法、激烈的市场竞争促使降价扩展用户群，云基础设施的改进进一步压缩了运行成本。

这一成本下降在GPT-3.5到GPT-4的定价变化中有所体现，但开源AI模型显然受益更大，价格优势更为明显。

著名风险投资人Marc Andreessen在十月曾指出生成式LLM内容的每个token的成本在过去一年下降了100倍，并认为目前“竞相压价”的趋势无疑会对闭源模型供应商的盈利空间构成挑战。

在低价竞争的压力下，OpenAI和Anthropic也分别推出了小模型GPT-4o-mini和Claude 3.5 Haiku，其中GPT-4o-mini的输入token定价和Mistral 7B持平，但输出的定价仍然是其3倍之多。

部署门槛一降再降，开源AI模型上手不再难

开源模型的部署成本和难度，近几年已经大幅下降，中小企业和独立开发者现在也能更轻松地以较低成本接触到AI技术。

主流云平台，如AWS、Google Cloud和Azure，纷纷降低技术门槛，推出专门的AI模型托管服务。比如亚马逊的Bedrock和谷歌的Vertex AI，它们支持直接托管开源模型，提供一键式服务，从硬件资源管理到安全保障都搞定，让用户短时间内就能实现模型的部署和管理，完全不必自己搭建基础设施。

与此同时，随着GPU、TPU等高性能硬件的技术进步和量产规模的扩大，这些设备的租赁价格也逐年下降。现在，甚至小企业和个人开发者也能负担得起高性能计算资源，不再是过去遥不可及的高成本投入。

开源社区对模型优化的推动也不容小觑。技术人员不断创新，优化模型结构、减少参数数量、提升推理效率，让开源模型在相同计算资源下也能实现更好的性能表现。像Llama、Mistral等新兴开源模型已经在不同硬件架构上进行了优化，即便是在资源相对有限的环境下也能高效运行。

最值得一提的是基础模型服务商的崛起——像Hugging Face、Cohere这样的公司能够提供即用型API，用户无需再自己管理硬件和模型维护，只要简单调用API就能接入开源模型。

它们的平台聚合了丰富的开源模型库，企业可以根据业务需求快速选用合适的模型，甚至直接在平台上完成微调，省去了大量开发时间和人力成本，让开源模型的商业应用变得更加灵活高效。

正因为有了这些技术和生态的进步，开源AI模型的部署不再是高门槛的挑战，而是越来越多企业和开发者可以触手可及的技术选择。

企业想要更安全可控的AI模型，基础设施供应商也在跟进

根据美国科技媒体Venture Beat在十月的一篇报道，在数据安全和AI模型控制需求日益增加的背景下，企业对开源AI模型的信任度正在稳步攀升。

闭源 AI 模型的服务模式通常由供应商（如 OpenAI、Anthropic、Gemini 等公司）提供所谓的“私有计算环境”。表面上，这似乎能够保障数据隐私，但在实际操作中，模型的控制权依然牢牢掌握在供应商手中。核心代码、模型权重、超参数等要素被严格保密，不可能向企业完全开放。这导致企业对模型的内部机制一知半解，缺乏自主管理和调优的能力。

所以即使企业的数据存储在“私有环境”中，模型供应商的员工却依然可能接触到这些数据，一旦拥有访问权限，企业的数据安全性便大打折扣。对于金融、医疗等数据高度敏感、监管严格的行业来说，这种数据泄露风险几乎无法接受。

如果使用开源AI模型，企业可以完全访问模型的代码和参数设置，根据需要对其进行调试和优化，甚至可以在内部完成运行和维护。这样的自主性不仅提升了数据安全的保障，增强了企业对模型控制的信任，也为企业在特定业务需求下提供了技术上的灵活性和深度定制的可能性。

因此，自主可控的开源AI模式不仅消除了供应商对模型和数据的干预，降低了数据泄露风险，还让企业可以自由拓展和优化模型的功能，不再受限于供应商的技术框架或版本更新。

这一趋势也引发了基础设施供应商的响应，纷纷集成开源AI模型，为客户提供更多选择。例如，Salesforce最近推出的Agentforce平台，使企业可以在Salesforce应用中无缝集成任何LLM，使开源模型的使用体验与闭源模型一样简单便捷。

甲骨文公司在九月还在其企业套件中扩展了对最新Llama模型的支持，其中包括ERP、人力资源和供应链管理等针对大型企业的应用程序。

另一家商业应用巨头SAP宣布通过其Joule AI copilot 全面支持开源LLM，而ServiceNow则支持开放和封闭的LLM集成，以实现客户服务和IT支持等领域的工作流自动化。

甲骨文公司AI与数据管理服务执行副总裁Greg Pavlik在接受Venture Beat采访时表示，他认为开源AI模型将最终胜出，因为其修改模型和进行实验的能力（特别是在垂直领域）加上优惠的成本对企业客户非常有吸引力。

开源和闭源AI模型，就像安卓 vs 苹果？

在AI模型发展的赛道上，以Hugging Face和OpenAI为代表的公司所采取的不同策略，或许可以类比为智能手机市场中的“安卓 vs. 苹果”竞争模式。

Hugging Face 如同安卓阵营，以开放普惠的策略吸引了大批开发者和中小企业的青睐。

它提供了丰富的工具和资源，包括类似GitHub的AI代码仓库、庞大的模型和数据集中心，以及展示AI应用的Web应用程序。平台上托管了超过100万个模型和数据集，开发者可以轻松调用Llama、Mistral、Falcon和Bloom等主流开源AI模型，满足不同层次的使用需求。

通过与AWS的深度合作，Hugging Face让这些开源模型能够在亚马逊的云基础设施上高效运行，帮助中小企业和初创公司获得强大的计算能力，降低了AI技术的进入门槛。

价格合理、开源友好的API服务使得AI民主化成为现实，并形成了一套开放、灵活的生态，这种模式与安卓在智能手机中的角色十分相似。

相对而言，OpenAI则更像“苹果”，走的是高端、精英化的路线。

作为微软深度支持的初创企业，OpenAI的客户群主要是资金雄厚的大型企业：它们不仅能支付高昂的费用，还能充分利用OpenAI提供的尖端AI技术。另外，OpenAI的Foundry平台还提供了定制化的计算资源，专为需要高性能模型的企业设计。

这种“安卓 vs. 苹果”的模式，不仅为不同规模的用户提供了更多选择，也催生了一个互补共生的新格局。

今年八月，总部位于纽约布鲁克林的Hugging Face在D轮融资中获得了2.35亿美元的投资，估值达到了45亿美元，投资方包括谷歌、亚马逊、英伟达、英特尔等巨头。

有趣的是，尽管亚马逊和微软分别深度绑定了闭源AI公司Anthropic和OpenAI，两大巨头却同样在加码对开源AI模型的布局。

亚马逊是Hugging Face的主要投资人，并与其在AWS平台上进行深度集成；微软则在今年二月向开源AI模型公司Mistral注资1600万美元，并推出了自己的Phi系列开源AI模型。

这种开源与闭源的双线布局，使得亚马逊和微软能够推动AI市场的多元化发展，无论是寻求普惠AI解决方案的独立开发者、中小企业，还是追求尖端技术的大型企业，都能找到契合自身需求的AI方案。

开源还是闭源，哪一个才是生成式AI发展的未来？

今年5月泄露的一份谷歌内部纪要中，一位研究员直言，谷歌和OpenAI都没有护城河，开源AI模型可能最终才是真正的赢家。

“尽管我们的模型在质量上依然略胜一筹，但差距正在以惊人的速度缩小。开源模型速度更快、可定制性更强、更私密，且在相同条件下更具竞争力。它们用100美元和13B参数就实现了我们投入 1000 万美元、540B参数才勉强达到的效果，而且只用了数周，而非数月。”纪要中写道。

这位研究员认为，Meta当前在这场竞赛中已经占得先机，因为其Llama模型汇集了全球开发者的免费贡献，大多数开源创新都基于其架构，从而使得Meta的生态系统更为强大。

“拥有生态系统的价值不容低估。”他在纪要中补充道，“谷歌在Chrome和Android等开源产品中成功运用了这种模式，通过掌控创新的平台，谷歌巩固了自身的思想领袖地位，并能够在更广泛的理念上塑造话语。”他认为，谷歌应更倾向于开放，以实现更好的发展。

不过谷歌DeepMind首席执行官 Demis Hassabis有着不同的看法。在接受美国科技媒体The Verge的采访时，他表示谷歌的研究团队具备极强的竞争力，能够推动公司继续引领人工智能前沿，谷歌大脑和DeepMind团队的合并将为未来的突破提供更多可能。

“看看谷歌和DeepMind在创新和突破方面的历史。我敢打赌，我对此充满信心，”Hassabis说道，“这种势头会在未来十年愈发显著。我们将像过去一样取得下一个关键性突破。”

尽管开源和闭源AI模型之间存在竞争，但二者未必需要非分出胜负。

正如Linux和Windows长期共存、苹果和安卓各占一方，开源与闭源AI模型也有可能在不同领域中相互补充，共同推动行业的进步。

开源模型可以提供创新的“试验场”，吸引全球开发者的参与和优化，而闭源模型则在数据隐私和性能优化方面具有优势。无论是个人用户还是企业，都可以根据需求选择适合的方案，促使技术在开放与保护间取得平衡，最终形成共存共荣的生态系统。

文：王茜茜 / 数据猿
责编：凝视深空 / 数据猿

http://mp.weixin.qq.com/s?__biz=MzI4Mzc5NjI3MQ==&mid=2247689917&idx=1&sn=acc1acf9858cfcc7f1c918dc29545f3f

数据猿

关注大数据产业的技术应用新媒体。数据猿致力于以大数据的产业应用视角，关注报道金融、工业、医疗、消费等为代表的全行业，并以大数据视角，重点关注人工智能与云计算领域。数据猿也将持续关注物联网、半导体、新能源等重要领域的大数据技术应用及发展情况。

最新文章

欧美最顶尖的5家云厂商，都在押注什么？

从数据孤岛到实时智能，Denodo 助力中国企业的数字化转型

【金猿案例展】美的置业——“新一代”集团企业智慧税务数据管理平台建设

【金猿案例展】上海汽检——智能网联自动驾驶交通事故原因分析服务平台

【金猿人物展】博睿数据董事长兼CEO李凯：云原生与数据治理融合，实现全域数据协同

七大SaaS巨头财报揭秘洞察全球SaaS行业最新趋势

【金猿信创展】TapData——为用户提供自主可控、安全可靠的实时数据解决方案，助力实现无痛平稳、灵活高效的国产化环境过渡

【金猿案例展】浔兴拉链-数据中台数据标准建设项目

不是OpenAI用不起，而是开源AI模型更有性价比？

【金猿信创展】慧博科技——数据驱动，智慧创新，引领国产CRM新篇章

【金猿人物展】曙光数创副总裁兼CTO张鹏博士：大数据与数据中心共生共荣

袋鼠云CEO宁海元：打通数智基建到应用的通路，让数据不再“躺灰” | 数据猿专访

如果把数据视为“商品”，那该如何安全的交易它？

腾讯推出Hunyuan-Large大模型；昆仑万维发布天工AI高级搜索功能；月泉仿生获近亿元Pre-A轮融资丨每日大事件

中国云市场格局生变：运营商强势崛起，千亿俱乐部迎来新成员

ChatGPT Search功能深夜上线（实测）！Sam Altman在线回答网友提问（实录）！

两种人生，一种困境

是我们“辜负”了IBM、SAP么？

考拉悠然首席架构师谢治宇：用AI打造“超级拟人人类”，让交通事故处理速度提升30倍

腾讯云数据库TDSQL：数据库界的“高架桥”

软件已死，数据永生？

2024中国智能运维领域最具商业合作价值企业盘点

谁才是真正的“甲方爸爸”？

云计算欲上九天，AI大模型能否推波助澜？

大厂碾压还是小企逆袭？数据标注与生成市场进入白热化角逐

数据也要“卷”起来！主动治理+数据工程让企业快人一步

一个印度人救了微软，另一个毁了IBM？

七牛云：精准介入APaaS IPO开启新征程

《大模型重构大数据产业发展白皮书（2024）》即将发布，欢迎报名参编

《2024中国企业数智化转型升级服务全景图/产业图谱2.0版》重磅发布

诚邀参加数据空间创新发展论坛，迎接数据资源开发利用大时代

英特尔，何以沦落至此？

To B企业陷入定制化泥潭，甲方客户也有责任！

谁“毁了”IBM？

《2024中国数据智能产业图谱2.0版》重磅发布

大数据公司，开始相互抢饭碗了？

它思科技CTO聂玮奇：消除“AI幻觉”，搭建高可靠对话云平台丨数据猿专访

SAP“收缩”，谁能填补中国市场的巨大空白？

两大诺贝尔奖连续“看多”，谁还敢说这一轮AI是泡沫？！

震麻了，2024年诺贝尔化学奖竟然也给了AI

AI教父得诺贝尔物理学奖，Hinton：我惊呆了！

云计算的江湖，风云再起

ChatGPT Canvas实测：对不起，它还不是AGI的终极交互形态

打败英伟达的，绝不会是另一个“英伟达”！

孪生之术通天路，七宗罪里坠凡尘

Murati出走，OpenAI重组，Sam Altman突然就被炮轰“虚伪”？

合合信息上市首秀：光环之下的挑战与机遇

2024中国数据库领域最具商业合作价值企业盘点

市场已经变了，你还在用老办法运营APP么？

真没想到，百度智能云居然变成这样了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉