开放源代码倡议旨在在其定义开源人工智能时达成共识。相反,它在开源整体焦虑的时期暴露了社区的担忧。
译自The Open Source AI Definition: What the Critics Say,作者 Richard Gall。
10月底发布的开源倡议组织(OSI)对开源人工智能的定义本应是共识建立的一个里程碑。OSI主席通过邮件告诉The New Stack,这是一个试图“在业界、学术界、民间社会和政策制定者之间建立共识”的尝试。
然而,开源人工智能的定义并没有加强任何共识,反而引发了新的分歧和相当大的不满。在一篇标题为《OSI缺乏定义开源人工智能的能力》的直言不讳的文章中,Kwaai公司的人工智能领导者在其博客上写道,整个过程就像“[强行]重新定义了二十五年来每个人都讨厌的开源”。
因此,OSI的定义似乎并没有解决开源中的问题,反而加剧了开源领域的紧张局势。所有这些都发生在WordPress持续不断的困境的同一新闻周期中,这更突显了这是一个没有人能够完全掌握的更大问题的症状。
那么,批评者认为OSI发布的主要问题是什么?他们认为这个定义是否只需要被抛弃?或者OSI是否比许多人目前给予它的评价更高?一些耐心和灵活性能否帮助我们达成更大的共识?
人工智能究竟是什么“东西”?
对OSI定义最根本的批评之一是,谈论开源人工智能根本没有意义。
OpenUK的首席执行官告诉The New Stack:“我认为这是一个错误,因为你正在定义一个我认为会持续变化的市场。”(强调她对这个问题的看法仅代表她个人,不代表OpenUK。)
为了说明她的观点,她强调了早期关于存在“开源移动”或“开源云”概念的讨论。
她指出:“我认为不定义‘云’或‘移动’不是一个错误。我认为那将是非常不恰当的事情。” Brock说,这是因为这些是产品或服务的类别,而不是一个独特的“东西”。换句话说,人工智能是一个复杂且多方面的“东西”,由不同的部分组成——另一方面,开源软件最终都是源代码。
部分原因是Endor Labs的高级产品经理对该定义有所保留。
他通过邮件告诉TNS:“人工智能模型由许多组件组成:训练集、权重以及训练和测试模型的程序。”“要将模型称为‘开放’,重要的是使整个链条都可用作开源。”
对此,OSI非常清楚将人工智能作为一个单一的“东西”来思考的独特挑战。
Hinds告诉TNS:“在[制定定义的]两年过程中,很明显,人工智能系统不是程序化的;它们与软件完全不同。”“OSI领导的核心工作是发现修改AI/ML系统的首选方式是什么:它是模型参数、用于训练系统的代码、用于处理训练数据的代码以及数据本身,除非分发这些数据是非法的。”
Hinds接着说,这“对于习惯于完全访问开源软件的源代码和构建脚本的一些软件开发人员来说,是违反直觉的”。
很明显,OSI热衷于在其定义中反映人工智能系统的细微之处。但也许这种尝试反而创造了一些更令人困惑的东西。当涉及到数据和软件之间的差异时,这是一个特别的问题——这是该定义中最有争议的部分之一——这可以说是让OSI与各方为敌,从大型企业到开源纯粹主义者。
这是Venafi公司负责工作负载身份架构的副总裁兼全球主管在邮件中与TNS交谈时提出的观点。虽然他热衷于表达对OSI在开源AI定义(OSAID)方面工作的赞赏,并指出它“引发了关于在AI模型的背景下‘开源’应该意味着什么的必要讨论”,但他同时也保持警惕。
“以这种方式将训练数据与开源软件结合起来令人困惑,”他写道,“因为传统上,我们经常被鼓励分别考虑数据和代码的许可。”
Brock回应了Barker的观点。“任何在这个领域工作过的律师几十年来一直在告诉大家不要这样做,因为这是错误的……数据和软件是非常不同的知识产权。它们围绕着它们有完全不同的担忧,所以你不应该混合这些许可证。”
然而,OSI并不认为这是一个问题。正如Hinds所说,对于OSI来说,AI系统是一个独特的“事物”,与软件和AI是分开的。
“在为期两年的过程中,很明显AI系统不是编程的;它们与软件完全不同,”她在给TNS的邮件中写道。“AI(特别是机器学习)依赖于数据,但它也不是数据。”
这种观点差异应该很清楚:对于像Brock这样的人来说,AI不是一个与它所依赖的软件或数据分离的独立实体;对于OSI来说,它是的——最终,如果它不被视为这样,这个定义实际上是行不通的。
Brock认为存在另一种方法。“如果你要定义任何东西,并且你认为它不是软件或数据,你会查看组件部分并定义组件。”
OSAID是否可行?
除了关于AI究竟是什么的根本性问题之外,还有一些问题是关于该定义作为政策制定者、研究人员和技术人员的工具是否有用。
虽然十月发布的版本不是测试版,但Hinds强调,OSI并不认为这个定义是静态的。她将这个版本描述为“一个可行的标准”。
她告诉TNS,该组织愿意通过持续的对话和合作来发展和调整它:“我们将继续努力创新和制定一个定义,随着我们更好地理解开发和复制AI系统中各种要素的作用,该定义将得到改进。”
然而,虽然这种灵活性可能是善意的,并且在一个快速变化的领域中是一个优势,但从政策的角度来看,它看似临时的性质消除了你通常期望从具有法律意义的定义中获得的权重和力量。
对于Brock来说,一个不断发展的定义的想法似乎毫无意义。“我认为创建一个不断变化的定义并没有帮助,”她说。“当你涉及到政策和立法以及评估风险时,如果你看到的定义是不固定的,那么本身就是一个你不会采用的风险。”
但也许在这个阶段,定义的影响力并不是一切。新观念需要时间才能在社区中扎根。
尽管对该定义持有保留意见和疑问,但Barker认为这场辩论——尽管对我们现在来说可能显得混乱——是有成效的,并且是整个过程的一个组成部分。
他告诉TNS:“这是我们在任何颠覆性范式出现时都会看到的更广泛的推拉的一部分,就像我们对‘云’所看到的那样。”“这种创造性的冲突,虽然混乱,但最终会带来更清晰的理解和更强的标准。它只会混乱一段时间。”
对于OSI来说,Hinds认为,最重要的是它“有意义地赋予开发者分叉的权利”。从根本上说,Hinds和OSI相信他们的定义做到了这一点。
她告诉TNS:“有些人认为需要更多组件才能保证更高的透明度。”“其他团体则认为模型参数和架构足以进行研究和修改。”
Hinds补充说,OSAID“发现,虽然这些方法是合理的,但都不是促进有意义的合作和创新的最佳方法。OSAID授予用户权利(通过许可证)和工具(通过所需组件列表)来对AI系统进行有意义的合作和创新。”
污染和稀释开源
虽然关于OSAID的有效性显然存在疑问,但一些批评者提出的最严重的异议之一可能是它对更广泛的开源的影响。Johnston在他的文章中提出了这一点,写道“无效且不可实施的开源AI定义有可能导致我们被商业供应商提供的模糊的、经过粉饰的开放式产品挤出市场。” 如果他的观点正确,那就极具讽刺意味。OSAID出现的背景是,“开源”之类的术语已被附加到与AI相关的项目和产品上,这似乎挑战了开源精神的界限——可以自由访问、分发和修改(即“衍生”)的代码。
尽管OSI并未将此作为OSAID动机的理由,但该组织明确批评Meta使用“开源”来描述其Llama模型,这意味着将其视为定义的重要潜台词并非牵强附会。(在接受《金融时报》采访时——抱歉,需要付费才能阅读——OSI执行董事指责该公司污染了该术语。)
这场争论如何结束很难预测。正如Barker所说:“除了专家之外,我怀疑很多人无法当场说出开源的确切定义——即使是专家也不总是意见一致。”
尽管他对OSAID有所保留,但他也很谨慎。“在这个领域工作了近20年,我理解这些讨论的重要性——但我同时也尽量保持务实。”
撇开定义的细节不谈,如果OSI在这个定义上犯了错误,那就是将开源视为纯粹的法律术语,一个与几十年来使用和维护它的社区分离的抽象概念或工具。
通过电子邮件与TNS通信,美国网络安全和基础设施安全局开源安全部门主管,以及前OSI董事会成员指出,虽然最初的开源定义最终只是“指特定类别的软件许可证”,但它的发展“似乎超过了导致早期项目稳定性和安全的文化传播”。
这并不是说我们不应该或不能同时关注术语的两种用法,而是说它们是相辅相成的——只有当人们相信并参与其中时,这个概念才具有影响力。只有当这个概念在行业中具有力量和意义时,人们才会真正继续相信它。
这是axo创始人兼首席执行官在9月份发表在TNS的一篇文章中提出的观点。她强调,虽然开源在几十年来经历了语言漂移,但这并不是一项政策,甚至不是一项直接的制度性政策:这是一个关于管理和社区的问题。
那篇文章的作者,TNS发行人(与Ashley没有关系)简洁地指出:“Meta可以称其LLM Llama为开源,因为首先人们对如何定义开源AI存在很多混淆。”
由于相互竞争的利益(通常是商业利益),社区变得支离破碎,以至于对“开源”一词的坚定所有权几乎消失了。
OSI是否应该承担这项工作? 鉴于OSAID似乎只会加剧混乱和争议,需要回答的主要问题是组织是否应该首先承担这项工作。
Brock与Johnston等人一样,声称OSAID对“破坏开源软件构成真正的风险”。但她同时也认为,这种风险很大程度上源于该项目吞噬了大量资源。
对她来说,关键问题是如何确保开源的持久性,尤其是在它似乎如此脆弱的时候。她告诉TNS,她认为OSAID“通过制造混乱和分散资源来破坏……持久性”。
Hinds对这一论点进行了强有力的反驳,以捍卫OSI。“我们在这里将资源集中在社区选出的董事会指示我们追求的项目和优先事项上,”她说。
她继续说:“如果你看看我们在过去两年的活动,OSI所做的远不止AI,”她强调了该组织的非AI倡议,包括ClearlyDefined,一个旨在“为开源许可证带来清晰度”的项目,以及加入数字公共物品联盟,Hinds认为这将加强“与联合国为整个社区的合作”。 即使资源充足,开放源代码促进会 (OSI) 也对应对开放源代码面临的诸多挑战充满信心,但毫无疑问,对其方法的质疑仍然存在。开放源代码面临的最大威胁可能是开放源代码领域主要参与者地位焦虑的结果,我们看到的不是更全面或更协调地满足开放源代码的需求,而是碎片化和内斗。
Barker告诉TNS:“作为开放源代码原则的公认守护者,OSI的使命始终是维护标准并强调非专有软件的重要性。”“他们是否严格需要一个具体的AI定义才能做到这一点,这是值得商榷的。但随着AI成为基础性和颠覆性技术,OSI可能会觉得有必要将自己定位为相关的权威机构。”
对于更广泛的社区来说,真正的挑战——如果它想解决开放源代码当前的许多问题,而不仅仅是AI——在于理清权威和管理。虽然两者都需要领导力和远见,但两者之间无疑存在一些紧张关系;良好的管理可能需要放弃一些权威或更广泛地分配权力。在解决这个问题之前,我们可能还会在浑水中摸索一段时间。