Huggingface——一个包含了LLM,AIGC的开源社区

文摘   科技   2023-05-19 09:00   浙江  

关注我 带你康好康的


    前言:最近在自学相关AIGC知识的时候,发现不少地方都能看到huggingface的影子,好家伙,在我初学AI的时候,我记得他只是搞nlp的啊,好奇之下,去进一步了解了一下它......



Huggingface介绍

相信搞AI,尤其是nlper,一定都认识这个笑脸。它是一家美国公司,致力于开发使用机器学习构建应用程序的工具。最著名的是其为自然语言处理构建的transformer库。以上,是百度上对huggingface的解释。

实际上,HuggingFace 这个创立于纽约的公司,在创立初期是致力于成为一个聊天机器人服务商的。然而,他们的主营业务在当时并未成功起飞。反而是他们在 Github 上开源的一个叫Transformers 库的项目大红大紫。

Transformers 库最初名称是pytorch-pretrained-bert它是随着BERT一起应运而生的。2018年10月底,Google开源了BERT的tensorflow实现。当时,BERT以其强劲的性能,一举引起学术界,工业界的轰动。但因为没有pytorch的版本很多人又尝试不了,于是pytorch-pretrained-bert开始了它的第一次提交。pytorch-pretrained-bert 用pytorch框架复现了BERT的性能,并提供预训练模型的下载!使当时没有足够算力的开发者们也能够在几分钟内就玩玩这个最新的模型!

因为pytorch框架的友好,BERT的强大,以及pytorch-pretrained-bert的简单易用,这个repo不到10天就突破了1000个star。获得成功的huggingface后续又添加上了GPT,GPT-2,Transformer-XL,XLNET,XLM等预训练语言模型。2019年6月Tensorflow2的beta版发布,Huggingface也闻风而动。为了立于不败之地,它又实现了TensorFlow 2.0和PyTorch模型之间一系列操作,使得用户可以在TF2.0/PyTorch框架之间随意迁移模型。并同时正式更名为 transformers 。

到目前为止,transformers 提供了超过100种语言的,超多种预训练语言模型,简单,强大,高性能,是新手入门的不二选择。

HuggingFace 之所以能够取得如此巨大的成功,一方面是因为它让我们这些小白、尤其是入门者也能快速使用科研大牛们训练出的超牛模型。另一方面是因为HuggingFace具有特别开放的文化和态度,吸引了越来越多的开发人员参与到开源项目中,并在这个基础上提交了大量的新模型及贡献。

HuggingFace 平台目前已经应用非常广泛,在国内市场也拥有相当的普及性。一些开源框架本质上就是调用 Transformers 上的模型进行微调,同时也有很多大牛在默默提供模型和数据集相关支持。

huggingface现状

以上,介绍的时候,其实我也小律对huggingface的初印象。。。那时候,huggingface几乎约等于transformers库。但现在,似乎一切都不一样了。。。尤其是今年。

在小律看来,按今年的这个风向,huggingface完全有成为深度学习社区标准的趋势。为啥这么说呢,hugginface的大红大紫并不是偶然的,hugginface一直在致力于开源这一工作,本身有非常庞大的爱好开源的群体。其次,他自己就有一套非常完整的从数据,到训练,到推理,乃至提供demo展示的渠道,可以说覆盖了我们大多数人的大多数需求了。

过去,我们写一套训练框架,不同的人往往会有不同的代码风格,很难整合到一块,数据也是五花八门的,一会从这里下载,一会从那里下载,框架一般大家用的pytorch或者tensorflow,展示demo一般也要自己自建个网页或者搞个notebook,还是挺麻烦的。

而现在,huggingface提供了一整套完整的工具。transformers这个库不提,搞nlp的我相信都知道的这个库的威力,它优雅的包含了几乎所有知名的transformers模型了。咱们来看看那些你可能不知道的....

如果你需要数据?huggingface提供的datasets库整合了大量的数据集资源。因为他是nlp起家的,以前可能大多数是文本数据,现在我发现,cv数据,多模态数据等也已经涵盖进去了!不需要我们满世界去找数据从哪下载,而且它的下载速度也贼快,跑满带宽应该是轻轻松松的。现在的huggingface已经是一个优秀的多模态社区了,而不仅限于nlp。

如果你需要分布式训练,DDP,hvd改起来比较麻烦,accelerate库整合了大模型分布式训练的所有trick,几行代码轻松完成分布式训练~。

如果你需要展示demo,现在你也不需要自建网页了,gradio提供了快速部署demo的方案,最近大火的各种开源多模态大语言模型,比如MOSS,chatglm等,都可以在这里找到demo,甚至cv领域的一些demo,现在也能在gradio上找到。

虽然起家于nlp,但huggingface的野心并不止于此,现在火热的多模态,aigc也不能落下!Stable Diffusion因为是开源模型,小律也发现,hunggingface出了一个diffusers库,里面整合了我们经常在各个渠道看到过的,如Lora,dreambooth等aigc相关的技术。

这些工具极大的降低了各种门槛,而它的使用门槛又不高(可能这也是为什么搞ai的越来越卷的原因吧,猛男落泪)

所以,我相信,按目前的这个趋势,huggingface出的这些工具,在未来很可能依旧收到大多数程序员的追捧,在未来成为一种标准。非常值得大家去学习!进行尝试!

End 

最后,扯了这么多,欢迎大家都去试试huggingface呀~如果你有nlp,多模态,aigc相关任务或者想找相关的trick,都可以在这里找找看!之前小律打比赛,用的不少工具还真的都来自于他们!       

      你好,我是小律,一位数学专业转AI,热爱技术,思考新事物的算法工程师。在多家大厂呆过,目前就职于一家行业独角兽公司。

      这里,不止有算法干货,AI竞赛方案,还有劲燃鼓励,点滴分享!

      我每周至少更新一篇原创文章,也正在努力实现自己的人生目标,期待与你一起进步!



点个在看你最好看




不摸鱼的小律
互联网大厂算法工程师一枚,分享各种技术、职场热点和感悟。不做每日打卡的路人。
 最新文章