HuggingFace的发展历程
HuggingFace最初因其“Transformers”代码库而受到关注。这个代码库让Python开发人员能轻松训练和部署基于Transformer架构的模型。因此,它很快获得了人工智能开发者的喜爱。接着,HuggingFace利用其在人工智能开发者中的声誉,在网站上推出了开源模型库。这个库快速收集了业界的神经网络架构和对应模型的权重。这使得开发人员更愿意使用“Transformers”代码库来训练和部署模型。因此,HuggingFace在模型开源领域逐渐占据了重要位置,并建立了现在的影响力。
HuggingFace的核心组件
工具库
HuggingFace开发了用于创建并加载模型的Transformers代码库,和自然语言处理任务中加载向量化模型的Tokenizers代码库。这是业界首个可以仅用一行代码便完成模型创建与模型权重加载的工具。
Transformers 库提供了主流的预训练模型架构,只需要几行代码就可以轻松加载并使用预训练模型。它同时支持与 PyTorch、TensorFlow 等主流机器学习框架集成,方便在不同的项目和环境中快速应用。HuggingFace 团队持续对 Transformers 库进行更新和改进,不断引入新的模型架构和优化算法,使其维持领先地位。
在自然语言处理中,将文本进行分词与向量化,转换成模型能够处理的形式,是非常重要的一步,而 Tokenizers 库提供了快速且高效的文本分词、以及向量化工具。
Tokenizers 库与 Transformers 库紧密集成,能够方便地进行文本预处理和模型训练的衔接。在实际应用中,开发者只需要简单地调用相关的函数和方法,就可以完成从文本输入到模型训练的整个流程,大大简化了开发过程。
模型集
涵盖了几乎每个人工智能领域的模型,其中以自然语言处理、以及计算机视觉领域的模型为主,如语言模型BERT、GPT,以及视觉模型ViT等。在ChatGPT面世以后,平台上积累的开源大语言模型和多模态大模型数量与日俱增;HuggingFace依靠其积累的开源大模型评测数据集,在网站上创建了大模型排行榜的应用,用于展示大模型榜单,同时也会收录其他渠道出具的大模型评测榜单。这一举措进一步提升了HuggingFace在大模型环境下,模型开源平台的影响力,并吸引更多用户主动上传他们的模型。
数据集
HuggingFace 提供了一系列高质量的数据集,以及用于加载数据集的Datasets 代码库。数据集中涵盖了各种领域和任务,如用于文本任务训练的 IMDb 影评数据集、以及用于中英文大模型问答能力评测的CMMMU和MMMU数据集。开发者可以通过Datasets代码库快速地将本地数据集上传到平台上,或是将网站上开源的数据集下载到本地。这一功能简化了数据开源、以及维护的流程,提高开发团队公开其非涉密数据的意愿。
Space模型托管平台
Space是一个允许用户将机器学习模型快速部署为Web应用,而无需关心底层基础设施的平台。Spaces 支持多种部署方法,包括 Streamlit、Gradio、Static 和 Docker。开发者仅需要简单点击,即可在平台上上传并部署训练好的模型,同时生成一个可供访问的Web应用。
HuggingFace的运营模式
个人开发者用户会员
HuggingFace 为个人开发者用户提供了一定额度的服务和资源,包括免费的云盘空间、以及免费的服务器资源。用户可以依托Space平台免费发布个人模型,从而对自己模型进行展示。由于免费服务器中不包含GPU资源,因此HuggingFace还为个人用户提供了会员制服务,收取每个月9美元的会员费用,开通会员的用户在HuggingFace上发布的模型服务可以在被访问时动态调用GPU资源池中的部分算力;付费会员为个人用户提供了一个较低成本的模型部署与运营的方式,同时HuggingFace则得到了来自个人开发者的收入,以及来自普通用户的网站访问量。
小微企业会员
HuggingFace为小微企业提供了模型管理平台,并向企业收取每个月20美元的会员费用。模型管理平台可以帮助团队有效地进行模型发布与管理,同时提供了数据安全和隐私保护措施,确保企业私有的数据和隐私不被泄露。
面向大型企业提供解决方案
大型企业对人工智能技术的需求更加复杂和多样化,HuggingFace利用其在模型开源领域的知名度,为大型企业提供了企业级的解决方案,包括模型定制、数据管理、部署和优化等服务。
HuggingFace对行业的影响
HuggingFace作为开源平台的代表,其对大模型行业、AI绘图领域以及云服务器行业产生了显著且深远的影响。凭借其开源特性和强大的社区支持,HuggingFace已经成为大模型发布和共享的重要平台,同时也在AI绘图模型部署和云服务资源利用方面发挥了关键作用。
大模型行业的影响
HuggingFace在大模型行业中具有重要地位。其平台上积累了众多开源大模型,这不仅为HuggingFace赢得了权威性榜单的发布资格,还形成了一个良性循环:研发团队为了获得行业认可,更倾向于在HuggingFace上发布模型。这种趋势进一步丰富了平台的大模型资源,提升了HuggingFace在行业中的地位和影响力。
AI绘图行业的影响
在AI绘图领域,HuggingFace的Space平台为模型部署提供了极大便利。通过Space平台,研发团队可以轻松将AI绘图模型转换为Web应用,并在用户请求时动态分配GPU资源,大幅降低了模型部署门槛。这一功能吸引了众多小型团队和独立开发者参与AI绘图领域,使HuggingFace成为AI绘图模型展示和分享的热点平台,推动了整个行业的快速发展。
云服务器行业的影响
HuggingFace对云服务器行业的影响同样显著。随着平台快速部署Web应用的需求增长,对算力的需求激增。HuggingFace与亚马逊Azure等云服务器商的合作,为平台提供了强大的算力支持,同时帮助云服务厂商更高效地利用资源。这种合作模式为个人用户提供了便捷的云服务,使云服务器行业更好地服务于个人和小型团队,进一步拓宽了云服务市场的应用范围。
结论和建议
HuggingFace的成功展示了开源模式在人工智能领域的巨大潜力。成熟的模型开源生态下,开源者可以通过分享自己的模型,吸引来自全球的贡献者对模型进行优化和改进,这种集思广益的过程能够快速发现模型中存在的问题,并发掘其潜力,从而加速模型的迭代,提升模型的适用性。同时,开源生态也为个人和团队带来了快速积累声望的途径,有助于提升个人或团队在行业中的地位,为其带来更多的合作机会和职业发展空间。
然而,开源者发布的模型经二次开发后,可能会被他人用于商业目的,而开源者无法直接从中获益,这将会影响开源者继续发布模型的动力。目前业界并没有较好的方式来解决这一问题,因此可能需要更加精细的开源协议和商业模式来保障开源者的权益。
目前国内暂时没有成熟的开源生态,主流大模型厂商更希望发布模型接口,而不是开源模型,这是因为开源可能导致其利益受损。为了进一步推动开源生态的发展,我们建议加强知识产权保护机制,鼓励更多企业和机构参与开源项目,同时注重开源社区的建设和人才培养,实现共赢局面。
审稿:李连源、葛欣、吴博 | 业务研究所
本文作者