对话Hugging Face王铁震和零一林旅强:中国开源如何更好地被“看见”

科技   2024-11-17 09:51   北京  

王兆洋 |硅星人内容中心负责人
林旅强 |零一万物开源负责人、开源社联合创始人
王铁震|HuggingFace工程师

在硅星人首届AI创造者大会中,我们邀请到了两位在中国开源社区里面非常活跃的贡献者,零一万物开源负责人、开源社联合创始人林旅强,和Hugging Face工程师王铁震,我们一起讨论了对中国开源工作者最重要的一些话题(文章约8500字,阅读时间约16分钟)。

目录:

  • Hugging Face在关注什么

  • 开源作为一种作为竞争策略

  • “写博客”为何如此重要

  • 分布式,语音,数据集……算力限制之下,开源依然有机会

以下为对话实录整理。

Hugging Face在关注什么


王兆洋大家下午好,我是硅星人的王兆洋,我们很荣幸邀请到零一万物的林旅强和Hugging Face的王铁震,一起探讨中国开源工作者最关心的议题。

开源与闭源一直是计算机技术发展中的欢喜冤家。在当前轰轰烈烈的AI开源事业里,中国开发者的参与度极高。今天请来的两位,也是中国开源社区最活跃的贡献者。

我想直接切入主题,首先请教王铁震。作为Hugging Face的工程师,你们见证了大模型时代开源的发展。Hugging Face已成为这个领域不可或缺的主阵地。能否请你从Hugging Face的视角,分享一下当前开源的整体情况?包括模型开源的程度、项目的分类构成,以及你们在审核开源项目时最关注什么?另外,你们最近有什么新的举措和变化?

王铁震Hugging Face相当于AI模型的GitHub,用户可以在这里查看和下载数据集以及模型。目前,大家普遍关注的是大型语言模型。我们很早就开始做,大约在2017年和2018年就开始研究生成式AI。在2019年和2020年,我们的 Hub上线了。我们的Hub上不仅有大型语言模型,而且下载量和点赞数最多的模型是BERT。实际上小型语言模型(如BERT)在业内得到了广泛的应用,因为它们经过微调后效果显著,且成本较低。

我们的平台上不仅有大型语言模型,还有各种计算机视觉(CV)模型、强化学习(RL)模型、多模态模型,以及用于生成视频的模型。最近,机器人控制模型也变得火。有老师聊到,机器人控制也可以Diffusion 模型来做,这种架构具有很强的泛化能力,更新一点的就是Real Time 模型。

在我们看来,生成式AI的浪潮中还是有很多新奇有趣的领域值得研究,也在蓬勃发展。虽然目前看来,许多领域仍处于初期阶段,但我们相信它们很快就能实现大规模应用。

王兆洋:我们最早关注Hugging Face,是你们在开发自己的应用,后来因为一个开源模型大受欢迎,开始做Transformer架构相关的研究。我们内部就在讨论为什么“抱抱脸”公司值得关注?因为开源社区本身具有玩儿的属性。我们最早和一些开源社区的成员聊,他们喜欢Hugging Face平台,是因为可以在上面尝试最新的基于Transformer架构衍生出来的模型。我们也私下也讨论过,包括您刚才自己总结,不只是大家以为的以LLM为主的高光模型,实际上各种模型,甚至是上一代的模型,在平台上的点赞数是最高的。这是否意味着Hugging Face从始至终都贯穿着这样的理念:尽管平台本身是开源的,但作为平台的运营者,你们有自己的喜好和偏好,这些偏好影响了整个开源社区的发展方向?这种理念是否一直延续至今?以及,你们接下来将如何鼓励可玩性和创新?

王铁震我觉得不算是我们影响开源社区,我们是被开源社区影响。开源社区一直秉承着兴趣驱动的原则,大家去用开源已经有的,像积木一样堆积出来可以解决自己问题的“城堡”。它天然就满足每个人多样化的想法。它和真正产品有所区别。如果你去观察一个开源项目,你会发现,整个过程让我们更深入地了解技术,理解背后的哲学原理,能够亲自上手修改代码,可以与更多人交流。它是这样一个流动的社区。如果Hugging Face在AI领域有何不同,我们希望在AI领域,不会因为缺乏卡或强大的计算资源而阻碍大家做生成式AI的工作。我们鼓励包括零一在内的很多做大语言模型公司开放他们的预训练模型,这样大家就可以在这些模型的基础上,用很少的资源继续进行他们在开源社区中一直想做的各种模改和创新。比如,使用零一的模型,加入一些韩语语料,解决特定问题,利用开源社区的资源,站在前人的肩膀上创造更多有趣的成果,推动整个行业的发展。这是开源社区一直以来的精神。

王兆洋:一开始有一点游乐场的属性,但现在维持下来,因为它整个带来了生产力实际上的改进。大家已经开始贡献真正的价值出来了。

开源作为一种作为竞争策略


接下来想问林旅强一个问题。你有两个身份,一个是零一整个生态的负责人,同时你也是开源社的联合创始人。开源社我自己形容它,有点像中国开源发展过程中其中之一的黄埔军校一样角色的存在。零一又不纯粹只做开源的公司,你们又有一些开源的模型,又有闭源的,甚至直接是To B服务,靠它收费的模型,你们怎么判断哪些开源,哪些闭源?以及你在这个行业里一直到现在,你整个观察可以分享一下。

林旅强:我是去年11月份加入到零一的,我做开源社已经十年了。之前还在华为或者是某些企业在做一些开源,还有开发者生态相关的工作。为什么企业也好,或者是创业团队也好,会想利用开源,作为一把利刃往这个市场切一块饼下来?如果产品能力或在行业趋势中并非领先,开源可以作为一种突破方式。例如,在大模型领域,OpenAI是领头羊,后面还有很多后起之秀,也就是说在这个过程当中,开源会是异军突起的一种方式。

第二点,开源对于开发者来说体验友好,因为它提供了更高的自由度和创意空间。许多开发者倾向于使用开源模型,因为他们可以站在巨人的肩膀上。很多开发者喜欢用开源,单纯是因为自由度创意度更高。

去年11月份的那一次开源不是我做的决策,当时我刚加入公司。我很清楚公司的逻辑。去年,所谓的中国大模型的格局去年年底就定了。最早做开源的智谱、百川等企业起来了。零一在11月份发布,如果不是用开源方式,可能难以出圈。当然,今年也有其他创业公司开始开,以去年的维度来讲,在这个时候开源是明智的。

很多人认为开源是灵丹妙药,但实际上,开源只是手段之一。你的模型必须足够优秀,让大家觉得开源对他们有用。Hugging Face现在有太多的开源项目。越多人尝试,无论是模型本身的能力,还是开发者的使用体验,甚至是衍生作品,都变得重要。为什么一个开源项目重要,是因为很多人基于它创造出许多衍生作品。最近Hugging Face也开始关注哪些项目是上游,哪些是下游,以及它们之间的关系。

硅星人内容中心负责人王兆洋 

王兆洋王铁震之前说过,要看家族的大小规模,有多少衍生出来。

王铁震点赞是很容易的事情,下载也是很容易的事情,这些都是可以作假的东西。Hugging Face还有一些特殊情况,它没有办法体现中国开发者的下载数量,因为它在国内有一些问题。所以真正能够比较模型是不是被社区所接受,是不是畅销,你就看有多少人投入精力,投入算力,做出模型,这就是生态。不是开源模型能够直接满足客户需求,是基于你的模型做一些想不到的场景去解决客户的问题。你和客户之间就是你的生态,这个生态的大小,就是衡量开源模型是不是畅销非常好的指标。

林旅强当时我加入零一之后,我们团队对于生态建设确实没有考虑特别详细。我当时就制定了几个指标,我们一定要想办法成就使用我们的开发者,尽可能让我们的衍生作品能够获得成功,而不是让竞争对手的产品占据优势。理论上,我们的衍生作品应该比我们强,因为它加上了各种各样的场景。我不具体提及国内有哪些公司是我们的衍生作品,我们都是邀请他们加入我们的社区,共同讨论技术问题。我们的目标是建立一个技术生态,而非商业生态。后面虽然零一万物的模型并不是所有开发者都知晓,但在圈内,开发者金字塔的顶部,我们确实留下了深刻印象。

王兆洋我们一直在关注零一的进程,包括您提到的中国五小虎或六小虎格局的演变。去年我们也在观察,发现有一个阶段,无论是人才还是模型,都已经稳定下来。国内另一家非常知名的公司创始人也曾提到,他们计算出一个时间窗口,必须在这个时间窗口内完成融资和团队建设,零一也是在这个时间窗口内。大家当时认为,如果在这个时候不发布一些模型,大家的脑子里记不住那么多模型。所以从一开始,零一做出开源的决策,可以说是在竞争策略上的一个判断。

林旅强开源在每一家企业都是竞争策略。不管是大模型,或者是其他的软件,在开源的时候一定是想清楚,我做这件事情对我某阶段的竞争是想以小博大,还是要博取大家的眼球?

零一万物开源负责人、开源社联合创始人林旅强 

“写博客”为何如此重要

王兆洋我关注零一的公众号以及官方博客,我觉得它在国内写得很好。每次发布的内容,无论是技术点还是讲解方式,都处理得很好。这是我们接下来讨论的问题,也是许多中国开源贡献者非常关心的问题:怎样在全球化的开源社区中提升自己的存在感和影响力?实际上,你们所做的工作,包括文档的编写和梳理,都是为了朝这个方向努力。你可以和我们分享一下,这些为什么如此重要?此外,你还有什么可以分享给大家的,无论是遇到的困难还是经验。

林旅强真正做好开源工作,关键在于以开发者为中心。我最初审视我的模型时也是这么想的。当我最初加入项目时,发现项目该有的都有,但这些内容如何能让开发者一目了然地看到项目的定位,清晰地看到不同部分的内容,并迅速找到他们需要的部分,这是非常重要的。有时候,某些文档非常长,我需要能够快速定位到我需要的部分,以及整个文档目录的编排。

我观察过一些项目,包括零一最早的版本,它和Hugging Face一样,README文字长达数万字。作者想把想说的一切都写进去,但我发现虽然内容详实,能找到相关信息,开发者可能只是简单滚动一下,5秒钟后就退出了。我当时定了一个要求,首先,Hugging Face的model card应该用最少的文字说明这个模型能做什么,更偏向代码的内容放在Hugging Face上,README文件则作为导览。

我认为对文档进行整改是目前中国许多公司没有投入人力或者不重视的事情。他们认为模型已经开放了,用不用随你。这种对开发者体验的细微关注,有些开发人员可能会觉得,你们确实下了功夫。说白了,模型有多强大,并不是我们开源团队的工作,那是模型训练团队的事。我接到一个模型后,会想办法通过我的方式,让开发者能够无缝地体验。

博客也是这样,我们写出来的东西,我会不断打磨,思考哪些字是否太生僻,是否应该写得更简单一些,但不能出错。哪些段落需要改进,甚至让博客与我们联动,有些内容不必在博客中详述,可以链接到其他地方查看。博客的目的是传递信息,而不是把所有内容都讲清楚。这些内容大家可以思考,很多开发者说他们不喜欢写注释,不喜欢写文档,因为他们认为代码本身就能说明一切,能看懂我的代码就是高手,看不懂就不行。我觉得这种说法只适用于与你水平相当的开发者,但我们要服务的是所有人,而不仅仅是最高端的用户。通过这种方式降低开发者的门槛,我们做得不错,不敢说是最好的。

王兆洋这和我们在做的工作很像,要让读者更容易理解我们所传达的内容。林旅强所讲的,以及我自己的观察,不仅仅是国内从事开源工作,尤其是模型领域,还涉及到整个组织负责开源部分的OKR和KPI。前不久在硅谷与OpenAI的人交流,他们的一个重要KPI是写博客以及博客的点击率,早期的情况就是这样。实际上,在海外的技术沟通中,开源社区对文档的重视程度是非常高的,这是其中一个非常真实的例子。你会接触到许多中国开源的参与者和海外的很多明星项目,除此之外,你观察到有哪些是我们尚未意识到其重要性,但实际上非常有用的地方?

HuggingFace工程师 王铁震

王铁震这是个很好的问题。现在写技术文档,受众不再仅限于技术人员,现在大语言模型所谓的渗透率在逐渐增长,越来越多的人开始在自己的电脑上运行这些模型。这些用户的背景和我们通常假设的写技术文档人不一样。因此,能否有效地将信息传达给没有技术背景的人,实际上对于模型用户增长是一个非常重要的指标。

现在Hugging Face等工具变得越来越便捷,大语言模型将不再是机器学习专家的专属领域,而是像Word和Excel一样。未来,用户可能只需通过Prompt描述需求,准备一些样例数据,就能训练大模型生成符合他们需求的输出。随着用户群体的扩大,我们需要重新思考如何制作技术文档,甚至如何进行传播。

例如,零一模型发布后,传播做的很好,包括李开复老师有做转发。如果能够通过一些好的文档、博客或其他途径获得更多的关注度,这对于开源模型影响力的扩大也是非常重要的。

把模型看着很技术和枯燥的事情,变成大家看得见摸得着很好玩的事情,对模型有非常重要的价值。

我想提一个常被忽视的问题:开源模型的运营工作由谁来承担?我们需要让模型渗透到更多人中去,那么谁的运营会更有效?在国内,运营团队往往与开发团队分开的,他们缺乏足够的技术背景。如果一边是我们自己的团队的研究人员,另一边是面向用户群体的研究人员,那么中间的文科背景人员,没有太多代码经验,他们在传递信息时会非常辛苦,两边的沟通也不顺畅。

我们的策略是,应该让具有技术背景的人,甚至是研究员亲自参与进来。OpenAI就是一个全员参与的例子,他们自己的研究人员亲自撰写博客,全员成为KOL(关键意见领袖),这是一个很好的场景。

我们可以在Twitter上看到很多专业的讨论,因为参与的人群本身比较专业,一些概念就比较容易解释清楚,比如零一模型的事情在Twitter上很快就被说清楚了。因此,是否能够将团队中的研究者释放一部分力量,投入到运营中,这是一个战略上的考虑。同时,这也有助于研究员打造个人的IP,对于研究员来说,吸引他们的不仅仅是公司能提供多少薪资,而是公司能否将他们塑造成网红。这种接近研究员与研究员之间的沟通,有助于企业吸引优秀人才,树立良好形象。国内企业如果考虑开源,可以考虑让自己的研究员走到前台,更多地与大家交流。

兆洋这是硅星人也想做的,把他们的研究成果报道出来,不只是关心一些一夜颠覆的事情。我向两位提出一个问题,这关乎中国在开源领域的存在感和影响力。零一一直在这样做,包括我们在硅谷也能感受到,那里的氛围更为轻松,更多以个体的形式发声,无论是KOL还是其他。首先,中国开源的贡献者在模型能力或动线方面的质量很高。但为了争取更多的关注度,我们似乎选择了另一条路,给人一种苦大仇深的感觉,即我比你更极致地开源,我把所有的东西都给你拿去用。这样的效果真的好吗?

我们确实观察到,斯坦福的教授在课堂上举例时提到,你们这不是真正的开源,中国的模型开发得更多。后来我自己反思,这可能是在学术环境中的分享方式,对于整个开源社区,尤其是Hugging Face也能感受到,无论是开源社还是零一,在与更广泛的社群接触时,这些策略,或者说是被逼迫出来的策略,它们的真实效果如何?你怎么看这样一个趋势?我们是否应该继续这样做?请两位谈谈你们的看法。

林旅强:我分享一个我的观察,我从事开源工作已有十几年,而涉足大模型领域至少也有一年了。实际上,我发现这一切与整个大环境,包括文化和就业环境,都有着密切的关系。

首先,从文化角度来看,美国或西方社会比较鼓励个人发表意见。你说得越多、越大声,哪怕不完全正确,也会有人成为你言论的追随者。而在中国,我们讲究中庸和集体主义,也就是说,如果我发言说错了什么,会不会带来什么问题?我自己就处在这样的矛盾之中。

其次,与大模型玩家相关。实际上现在大家都很努力,尤其是在中国。我认识很多这样的团队,他们想的是如何赶超。所以有些事情可能赶超的方法是发表某些论文,但大家在选择论文的方法去做时,不会过早透露,因为有些事情是公开的秘密,论文都是开放的,你选择哪一个,你不会去说。这些如果太早说,对赶超的心情会有所不同。

第二点是关于时间。我目前没有听说过国内有哪个团队将写博客作为其OKR。原因是写一篇好的博客不亚于开发一个大模型,时间和精力应该放在哪里,成就就在哪里。可能当前还在赶超阶段的时候,还没有那么多的时间。不过,我说这些事情,只是说明现在是这个情况。我们真的从强大到伟大,我们需要真的把这些事情释放出来。比如Google的20%时间政策才能创造出伟大的成果,没有的话就出不来。这是中国迈向强大的路,我们如何继续走向伟大,这就是我们看到的问题。

王铁震我同意林旅强说的。从第二到第一,不停的创造不停的领先,是不同管理的思维。当你是第一的时候,你不知道你的方向在哪,你需要不停的探索,就像为什么伟大不能被进化一样,需要在一线的人做不停的尝试,从这里面找到一些真正的方向。

分布式,语音,数据集……算力限制之下,开源依然有机会

王兆洋我们之前讨论了开源的现状,以及我们的主题——让中国的开源开发者被更多的社区看见。最后一个话题,可能更抽象一些,或者更宏观一些,从更宽广的视角来看开源和闭源之间的关系。刚才我和王铁震私下聊天时,有一个观察:开源鼓励创新,它是各种新想法出现的第一个土壤;而闭源则一直追求稳定、商业化和实际落地的产品,这两者各有分工。与前几波开源闭源技术浪潮不同的是,大模型这一波有一个越来越明显的特点,那就是资源——你的卡,这些资源决定了一个想法能否走得更远。从最早的Transformer模型为什么是Google做出来的,这个架构很多人在研究,那是因为它拥有大量的GPU,能够堆砌出多层的注意力机制。

我们看到OpenAI也走类似的路,要建立十万百万卡的集群。在开源社区,甚至包括学术界,资源的差距越来越明显。让我觉得,开源提供了很好的idea,而闭源把它其吸收并转化为成果。从技术进步的角度来说,用户没关系,但从整个开源生态来说,现在是不是存在这样一个问题?你们认为有什么办法或建议吗?包括零一自己在做什么尝试?或者开源社,Hugging Face这边看到了什么新的尝试?

王铁震我觉得开源社区和学术界卡少是非常现实的问题,不是我们在这里讨论一下,大家给予开源社区更多关注,请求捐助硬件资源就能解决的问题。闭源可以支持研究的持续运转,而开源社区可能只能得到一次性的捐助,不可能持续不断地获得捐助。实际上,有很多新的领域非常值得开源社区去探索。

我最近看到了两个非常有趣的事情。一个是海外的一个分布式平台,我们也参与捐赠了一些卡。他们的目标是实现跨国、跨洲的集群训练。通常,模型训练需要大量的通讯,你需要把所有计算机放在同一个位置,以增加通讯带宽,更快地完成模型训练。现在有人在思考,是否有算法上的优化可以降低通讯对带宽的需求,降低通讯本身的需求,改变机器之间交换数据的方式。

之前Web3社区有很多设想,他们在训练一个大约10B参数的模型,大概跑了30%的token,我们当时捐赠了几个H100的机器。遗憾的是,作为最缺乏硬件资源的中国,在地图上并没有看到中国企业的支持,主要是欧洲和美国的企业。也许中国可以开启一个项目,把中国、非洲、东南亚等算力连接在一起,共同训练一些真正开源的模型,包括数据集和训练过程,通过真正开源的方式造福整个行业。这需要更多的分布式设计和算法上的巧妙思考,这不是简单地增加硬件资源就能解决的问题。

另外一个,上周我参加了RTE活动,声网作为OpenAI非常重要的合作伙伴,现在可能我们面临一个范式转变。2022年有一个范式转变,以前大家说要定制一个模型,现在变成了使用通用模型。现在的范式转变是,从需要打字交互的大语言模型界面,未来很快会升级为纯语音交互的界面。这种交互范式的革命将带来很多后续变化。

现在让我使用一个大语言模型,我什么时候会用?有事的时候才会用,坐在那打开网页,敲键盘,我的打字速度也不快。如果是语音的话,我甚至可以24小时一直保持沟通,而且用带有情感的语音跟我聊天,最好说,它跟我聊天的内容是保密的,这些东西都可以放在我的手机上。这里面也不一定需要特别大的模型,因为大模型肯定解决不了延迟问题,哪怕在服务器上,多一个网络的延迟,这是物理决定的。这里不需要太多的卡,你就可以做出一些成绩。也许我们做学术或开源的,也可以不去红海里竞争,而去蓝海里寻找一些新的方向。

王兆洋这两个都是非常有意思的洞见和观察。

林旅强我从另外一个角度看。刚刚提到把算力串联起来,是因为现在这个时间点,算力确实是一个很大的门槛。但如果我们从历史规律来看,我们回想1980年代,自由软件和开源软件是如何发展起来的。当时软件行业兴起,原来UNIX类操作系统纷纷闭源,现在非常像那个时代。当时,大家必须排队使用算力,而且只有机构才有这样的资源,个人是接触不到的。很多实验室里的情况和现在的大模型一模一样。但是,什么时候改变了这个局面?是摩尔定律。无论是英特尔还是其他算力公司,都是在硅谷那个时期崛起的。算力成本下降,性能提升,自由软件和开源软件也遍地开花。我认为再过5年,或者一段时间,开源真的能够反噬到现在的闭源和私密性。因此,如果现在投入到开源相关领域,并且能够持续较长时间,这是非常值得投资的。因为摩尔定律在GPU领域也会发生,这是我看到的一个重要观点。

第二点,现在我们能做什么?现在算力这么贵,我认为可以参与到开源数据集的贡献中,因为这并不消耗算力。Hugging Face上有很多这样的资源,大家可以一起参与。之前有一个出圈的项目,很多人参与,包括我们公司的几位博士生也参与了。我们觉得应该先让开源这件事情运转起来,社区在,等到新的事情发展起来,规模越来越大。目前中国的大模型圈子对于开源贡献,对于数据集贡献这件事,还没有当成重要的事情,我呼吁大家多去参与。

王铁震因为现在开源模型很卷,你做一个数据集,你拿到的东西反而更多。

王兆洋有心的开发者都可以借鉴一下,今天有很多创业的idea,像实时语音交互的机会,刚才提到趋势性的机会,在座有开发者,真的可以仔细琢磨的。总结一下,现在开源和闭源,或者说学术界包括在内的资源的差距是个事实了,在不可能短期改变的情况下,同时开源的社区也好,或者工作者,也有很多事情可以去做。如果你看历史,你就知道开源的好日子还在后面呢。

谢谢,今天我们这个环节就到这里。感谢两位!

点个在看,再走吧

硅星人Pro
硅(Si)是创造未来的基础,欢迎来到这个星球。
 最新文章