左手采购.右手AI
2024年11月4日
2024年第65篇,总第728篇原创文章
全文2954字,阅读时间约9分钟
01
Llama开源大模型的江湖地位崩塌了?
图片来源:opensource.org
在生成式人工智能(GenAI)领域,Meta(小扎)的Llama 一直被全球开发者奉为最大的开源 AI 模型。不仅国外的很多AI大模型是建立在Llama模型基础之上,国内的包括阿里、百度、智谱AI、百川智能、中国电信、Panda、Robin (罗宾)等多个AI大模型也都是基于Llama模型开发的,或者与Llama模型有关联。
然而随着开源组织 Open Source Initiative(OSI)在2024年10月30日的 ALL THINGS OPEN 大会上正式发布《AI开源标准1.0》(AI Open Source Standard 1.0),Llama开源大模型的江湖地位被撼动了,因为有几条判断是否开源的核心条款,Llama不符合。
比如,Llama的使用条款中对商业用途有一定限制(对于拥有超过7亿用户的应用程序),且不提供对训练数据的访问,这导致其不符合OSI的无限制使用、修改和共享自由标准。
注:《AI开源标准1.0》是全球首个开源 AI 标准。
官方网站链接:https://opensource.org/ai/open-source-ai-definition
开源快科普:
想象一下,你是一个厨师,你有一个独家的食谱,这个食谱能让你做出非常美味的蛋糕。这个食谱就像是软件的源代码,它包含了制作蛋糕(软件)的所有步骤和配方。开源就是你把食谱公开,任何人都可以看到它,甚至可以根据自己的口味修改它。 卢山 LUCENT LU,公众号:卢山说AI精进“俄罗斯开发者被除名”——不是科学无国界,只是时机还没到
02
《AI开源标准1.0》核心条款
图片来源:opensource.org
1. 免费使用
不得对任何个人或团体使用 AI 系统施加歧视性限制,包括但不限于使用目的(如商业用途)的限制。以确保任何人都可以自由地使用 AI 系统,不受使用目的的限制。
2. 源代码可用性
必须允许接收者在源代码形式下获得程序,并允许接收者对其进行修改和分发。这是确保 AI系统源代码公开的前提。
3. 派生作品
必须允许接收者在修改后的源代码基础上创建和分发新的作品。
4. 完整性保护
可以要求派生作品带有不同的名称或版本号,以区别于原始作品,以避免混淆。
5. 没有歧视性条款
不得对任何人或群体施加歧视性限制,包括但不限于基于个人或群体的身份、背景或特征的限制。
6. 透明度
必须要求提供训练数据集,除非数据集受法律保护或涉及隐私问题。
7. 参数和配置
必须要求提供训练参数和配置文件,以便其他人可以重现训练过程。
8. 文档
必须要求提供足够的文档,以便其他人可以理解和使用 AI 系统。
9. 专利许可
必须明确授予接收者使用、复制、修改和分发 AI 系统所需的所有专利权。
10. 许可证不可撤销
只要接收者遵守许可条款,许可不得被撤销。
读完上面10条核心条款,不由得感叹:这种标准的开源够彻底!
03
Llama 大模型的不符合项
图片来源:opensource.org
1. 商业用途限制
当前情况:根据《AI开源标准1.0》,开源项目不应对其使用目的(包括商业用途)施加歧视性限制。而Llama 模型的许可协议对商业用途有严格限制。
影响:用户在将模型用于商业目的时需要遵守特定的条款,这可能会影响 Llama 在企业中的接受度和采用率,特别是在那些需要高度灵活性和自由度的商业环境中。
2. 训练数据公开
当前情况:《AI开源标准1.0》要求提供训练数据集,除非数据集受法律保护或涉及隐私问题。虽然 Meta 提供了一些数据集,但Llama 模型完整的训练数据集并未公开。
影响:缺乏完整的训练数据集限制了其他研究者和开发者对 Llama 模型的深入研究和改进。这可能会减缓模型的进一步发展和优化。
3. 源代码和参数公开
当前情况:Llama 模型的源代码是公开的,这一点符合《AI 开源标准 1.0》的要求。但是它的训练参数和配置文件只是部分公开,但并非全部。
影响:Llama 在源代码公开方面符合标准,但在训练参数和配置文件的公开方面仍有不足。缺乏完整的训练参数和配置文件可能会影响其他研究者和开发者在相同条件下重现 Llama 的训练过程,从而影响模型的可验证性和可信度。
4. 文档和支持
当前情况:《AI开源标准1.0》要求提供足够的文档,以便其他人可以理解和使用 AI 系统。Llama 模型附带了一定的文档,但可能不够详尽。
影响:缺乏详尽的文档,可能导致不能有效使用模型。
5. 专利和版权
当前情况:《AI开源标准1.0》要求明确授予接收者使用、复制、修改和分发 AI 系统所需的所有专利权。Llama 模型的许可协议通常会包含专利许可条款,但具体细节可能需要进一步澄清。
影响:明确的专利许可可以减少法律纠纷,保护用户和开发者免受潜在的专利侵权风险。
6. 社区和生态
当前情况:《AI开源标准1.0》强调透明度和自由使用,这有助于建立一个更加开放和活跃的社区。Llama 模型有一个活跃的社区,但商业用途和数据公开的限制可能影响社区的多样性和贡献度。
影响:商业用途限制和公开更多数据来增强社区的参与度和贡献度,更开放的社区和生态系统可以促进更多的创新和合作,推动 Llama 模型的进一步发展和应用。
04
开源是一把双刃剑
鉴于事物的两面性,《AI开源标准1.0》也可能带来如下不利的影响:
1. 知识产权和商业竞争方面
尽管标准明确了一些开源的要求,但在实际操作中,对于 AI 模型的创新性改进部分以及基于开源模型衍生出的新成果的知识产权归属可能会变得模糊。不同的开发者和企业对于同一开源模型的修改和创新程度各不相同,确定哪些部分属于原创、哪些仍然基于原始开源代码,将是一个复杂的问题,容易引发知识产权纠纷。例如,多个团队对同一开源模型进行改进后,都声称对改进部分拥有独立的知识产权,在商业应用中就可能产生冲突。
对于一些投入大量资源进行研发的企业来说,开源标准可能导致他们的竞争优势被削弱。如果企业花费大量时间和资金开发出的先进技术,在开源标准下被快速传播和复制,其他企业可以在其基础上进行改进和应用,而原始开发者难以获得相应的商业回报,这可能会降低企业进行技术创新的积极性。
2. 数据安全和隐私方面
标准要求提供训练数据等信息以确保开源的透明度,但这也可能导致数据被滥用。一些恶意的开发者或组织可能会获取开源模型的训练数据,用于非法目的,如侵犯用户隐私、进行网络攻击等。例如,通过分析训练数据中的用户信息,进行精准的广告推送或诈骗活动。
另外在开源的环境下,数据的传播和共享范围更广,管理难度加大。如果开源项目的管理和安全措施不到位,很容易发生数据泄露事件,对用户的隐私和企业的商业机密造成威胁。尤其是涉及敏感行业,如金融、医疗等领域的数据,一旦泄露后果将非常严重。
3. 技术发展和质量方面
不同的开发者和组织可能会根据自己的理解和需求对开源模型进行修改和扩展,这可能导致出现众多的衍生版本和分支。这些不同版本之间的兼容性可能会成为问题,使得技术的整合和协同变得困难。例如,一个基于某个开源模型开发的应用程序,可能在另一个经过不同修改的开源版本上无法正常运行,影响了整个 AI 生态系统的发展。
开源意味着更多的人可以参与到模型的改进和开发中,这虽然增加了创新的可能性,但也可能导致模型质量参差不齐。一些缺乏专业知识和经验的开发者可能会对模型进行不恰当的修改,影响模型的性能和准确性,给用户带来不好的体验。而且在众多的开源项目中,用户难以辨别哪些是高质量、可靠的模型,增加了选择和使用的难度。
4. 伦理和社会影响方面
开源的 AI 模型可能被用于生成不良或有害的内容,如虚假信息、暴力、色情等。由于开源的特性,这些不良内容的传播速度可能更快,范围更广,对社会的稳定和安全造成威胁。例如,一些别有用心的人可能利用开源模型大量生成虚假新闻,误导公众舆论。
AI 开源标准的推行可能加速 AI 技术的普及和应用,导致一些重复性、规律性强的工作被 AI 替代,从而引发就业问题。尤其是对于一些低技能劳动者,他们可能面临更大的就业压力,加剧社会的贫富差距和不平等。
关于开源这件事,你怎么看?
——全文完——
新课表来了,内容迭代了,每个月在腾讯会议滚动交付。课后有7天回放。添加小助理咨询详情。
延展阅读
版权声明:“卢山说AI精进”个人公众号的文章均为本人原创。未经本人许可,禁止进行转载、摘编及复制等任何使用。如需转载、引用或者有其它意向,请事先通过本公众号后台等方式申请并获得授权。原创文章中的部分文字、图片源于网络,如有任何问题请联系本公众号。