Huggingface——一个包含了LLM,AIGC的开源社区

文摘科技 2023-05-19 09:00 浙江

关注我带你康好康的

前言：最近在自学相关AIGC知识的时候，发现不少地方都能看到huggingface的影子，好家伙，在我初学AI的时候，我记得他只是搞nlp的啊，好奇之下，去进一步了解了一下它......

Huggingface介绍

相信搞AI，尤其是nlper，一定都认识这个笑脸。它是一家美国公司，致力于开发使用机器学习构建应用程序的工具。最著名的是其为自然语言处理构建的transformer库。以上，是百度上对huggingface的解释。

实际上，HuggingFace 这个创立于纽约的公司，在创立初期是致力于成为一个聊天机器人服务商的。然而，他们的主营业务在当时并未成功起飞。反而是他们在 Github 上开源的一个叫Transformers 库的项目大红大紫。

Transformers 库最初的名称是pytorch-pretrained-bert，它是随着BERT一起应运而生的。2018年10月底，Google开源了BERT的tensorflow实现。当时，BERT以其强劲的性能，一举引起学术界，工业界的轰动。但因为没有pytorch的版本很多人又尝试不了，于是pytorch-pretrained-bert开始了它的第一次提交。pytorch-pretrained-bert 用pytorch框架复现了BERT的性能，并提供预训练模型的下载！使当时没有足够算力的开发者们也能够在几分钟内就玩玩这个最新的模型！

因为pytorch框架的友好，BERT的强大，以及pytorch-pretrained-bert的简单易用，这个repo不到10天就突破了1000个star。获得成功的huggingface后续又添加上了GPT，GPT-2，Transformer-XL，XLNET，XLM等预训练语言模型。2019年6月Tensorflow2的beta版发布，Huggingface也闻风而动。为了立于不败之地，它又实现了TensorFlow 2.0和PyTorch模型之间一系列操作，使得用户可以在TF2.0/PyTorch框架之间随意迁移模型。并同时正式更名为 transformers 。

到目前为止，transformers 提供了超过100种语言的，超多种预训练语言模型，简单，强大，高性能，是新手入门的不二选择。

HuggingFace 之所以能够取得如此巨大的成功，一方面是因为它让我们这些小白、尤其是入门者也能快速使用科研大牛们训练出的超牛模型。另一方面是因为HuggingFace具有特别开放的文化和态度，吸引了越来越多的开发人员参与到开源项目中，并在这个基础上提交了大量的新模型及贡献。

HuggingFace 平台目前已经应用非常广泛，在国内市场也拥有相当的普及性。一些开源框架本质上就是调用 Transformers 上的模型进行微调，同时也有很多大牛在默默提供模型和数据集相关支持。

huggingface现状

以上，介绍的时候，其实我也小律对huggingface的初印象。。。那时候，huggingface几乎约等于transformers库。但现在，似乎一切都不一样了。。。尤其是今年。

在小律看来，按今年的这个风向，huggingface完全有成为深度学习社区标准的趋势。为啥这么说呢，hugginface的大红大紫并不是偶然的，hugginface一直在致力于开源这一工作，本身有非常庞大的爱好开源的群体。其次，他自己就有一套非常完整的从数据，到训练，到推理，乃至提供demo展示的渠道，可以说覆盖了我们大多数人的大多数需求了。

过去，我们写一套训练框架，不同的人往往会有不同的代码风格，很难整合到一块，数据也是五花八门的，一会从这里下载，一会从那里下载，框架一般大家用的pytorch或者tensorflow，展示demo一般也要自己自建个网页或者搞个notebook，还是挺麻烦的。

而现在，huggingface提供了一整套完整的工具。transformers这个库不提，搞nlp的我相信都知道的这个库的威力，它优雅的包含了几乎所有知名的transformers模型了。咱们来看看那些你可能不知道的....

如果你需要数据？huggingface提供的datasets库整合了大量的数据集资源。因为他是nlp起家的，以前可能大多数是文本数据，现在我发现，cv数据，多模态数据等也已经涵盖进去了！不需要我们满世界去找数据从哪下载，而且它的下载速度也贼快，跑满带宽应该是轻轻松松的。现在的huggingface已经是一个优秀的多模态社区了，而不仅限于nlp。

如果你需要分布式训练，DDP，hvd改起来比较麻烦，accelerate库整合了大模型分布式训练的所有trick，几行代码轻松完成分布式训练~。

如果你需要展示demo，现在你也不需要自建网页了，gradio提供了快速部署demo的方案，最近大火的各种开源多模态大语言模型，比如MOSS，chatglm等，都可以在这里找到demo，甚至cv领域的一些demo，现在也能在gradio上找到。

虽然起家于nlp，但huggingface的野心并不止于此，现在火热的多模态，aigc也不能落下！Stable Diffusion因为是开源模型，小律也发现，hunggingface出了一个diffusers库，里面整合了我们经常在各个渠道看到过的，如Lora，dreambooth等aigc相关的技术。

这些工具极大的降低了各种门槛，而它的使用门槛又不高（可能这也是为什么搞ai的越来越卷的原因吧，猛男落泪）

所以，我相信，按目前的这个趋势，huggingface出的这些工具，在未来很可能依旧收到大多数程序员的追捧，在未来成为一种标准。非常值得大家去学习！进行尝试！

End

最后，扯了这么多，欢迎大家都去试试huggingface呀~如果你有nlp，多模态，aigc相关任务或者想找相关的trick，都可以在这里找找看！之前小律打比赛，用的不少工具还真的都来自于他们！

你好，我是小律，一位数学专业转AI，热爱技术，思考新事物的算法工程师。在多家大厂呆过，目前就职于一家行业独角兽公司。

这里，不止有算法干货，AI竞赛方案，还有劲燃鼓励，点滴分享！

我每周至少更新一篇原创文章，也正在努力实现自己的人生目标，期待与你一起进步！

点个在看你最好看

http://mp.weixin.qq.com/s?__biz=MzkzNzE4NTMxNA==&mid=2247485414&idx=1&sn=e267edc09d80b2234dc47e9a3cf830c5

不摸鱼的小律

互联网大厂算法工程师一枚，分享各种技术、职场热点和感悟。不做每日打卡的路人。

最新文章

985毕业生吐槽：985毕业去华为外包有辱师门吗？

“一二七定律”：1成的同事能交心、2成会斗争、7成的同事不过就是一起上班而已

大厂学姐：今天一次性讲清楚PyTorch 数据加载与sampler采样机制详解

字节某员工爆料：95年，月薪7w，年薪84w，2年工资没涨了，每天都感觉好迷茫。网友：这是日子过得太舒服了

pytorch日积月累3：一次讲清 PyTorch 封装的那些层次

2024 年调研报告，硕士毕业生失业率高达 67%，很多人迫不得已从学士到硕士，最后黄袍加身成为了骑士！

pytorch日积月累2：掌握张量操作，构建简单的线性回归模型

百度员工爆料：我今年31，女朋友28，都是北京研究生毕业，两人互联网，加起来到手50W左右，没车没房没户口。勉强苟活，不敢谈结婚

pytorch日积月累1：PyTorch 入门指南：全面解析 Tensor，轻松掌握深度学习的数据类型

60万定律：在上海任何单位和任何职业,只要工资年收入大于60w,基本上你都要完全放弃自己的个人生活,无论你是老师、医生、律师

天天一起的打工人，有资格成为朋友吗？一同事被裁员，立马退工作群，中午准备交接时，才发现所有同事微信好友都被删了！

北漂有多绝望？女朋友在字节，年收入25w，我北邮28岁年薪70多万，因为没有户口，导致感情破裂各奔东西！

python有必要花39.99元买正版吗？

前腾讯员工放弃80w年薪选择2800元体制内工作。网友：腾讯干三年等于体制内干68年...

医生年薪300万+！互联网打工人看完也得吸口凉气!

学姐：秋招应聘季，不得了解一下全球的科技巨头是谁？字节跳动排在全球第五！

华为员工爆料：华为里面的竞争还是很严重的，18级专家，年薪百万，同样被退休了，专家岗堪忧，这么卷！

阿里员工爆料：P7，年薪100多万，女朋友处了7年。丈母娘竟说，只要我考上当地的公务员，哪怕一个月2k也把女儿嫁给我

比亚迪211硕士不服低学历主管，网友：不服离职！

“60万年薪 vs 9k月薪：是奔波还是安稳，谁赢了？”

命好躺着也赚钱！英伟达员工爆料：股票账号密码忘记了，也懒得弄，一直捂着，现在股价飙升，身价直接破亿！

同事被辞退拿了8万赔偿，交接完就离开了公司。3天后，新来的员工把同事电脑里的资料给删了，老板急忙联系前同事，要他回去协助

2023年互联网巨头谁最赚钱？字节跳动直接碾压！曾经的BAT只剩下T了？

字节跳动员工爆料：18年入职到现在，辛苦攒了8000多股，网友直呼：羡慕了！940万人民币，！

一个奇怪的现象：拿过薪资60k的人，就算找不到工作，也拉不下脸去干20k左右的工作。网友：因为低薪一样不稳定，而且更卷？

一个奇怪的现象：华为为什么要请这么多外包？外企德科，中软国际，软通动力，一问全是华为外包。

发现一个奇怪的现象：儿女有出息，去了国外，等于没有生；儿女去了大城市，等于生了半个；留在身边的，虽然穷一点，但起码有个依靠

邮政员工吐槽：被父母安排进邮政银行，上最累的班，领最少的钱

《凡人歌》:月薪2w的老婆嫌弃月薪8000的北京公务员老公：“你是好人，但很没用”

一个奇怪的现象：如今满大街都是三种人，神采奕奕的老人，死气沉沉的年轻人，以及生不如死的中年人

前华为员工：很后悔！毕业后进华为，年薪42万，选择跳槽后失业了。联系华为想回去工作，年薪还是原来的就行，华为说不可以

字节员工爆料：五年前入职字节，月薪9万，当时很高兴。后来在北京买了房，日渐憔悴

35岁后的人生：黄金期还是职场“废弃期”？

我是应届生，是“未开封的五仁月饼”，是“旷野上的牛马”！

邮政员工辞职大纠结：支局长挽留，走还是留？

大厂程序员爆料：38岁被裁，有2年竞业协议，每月领8万8补偿金。但2年后，想再就业就难了

年薪15万吉利汽车员工爆料：自己很努力，绩效也很好，但干了3年，入职时工资8000，离职时11000，内部调薪慢得跟蜗牛似

中秋节，公司给我发了“空气”，你呢？中秋节福利贫富差距让人破大防！

60万定律：在上海任何单位和任何职业,只要工资年收入大于60w,基本上你都要完全放弃自己的个人生活,无论你是老师、医生、律师

字节员工吐槽说:我终于知道为什么大家喜欢招985、211大学生了。

我在华为年薪100万，深圳房子136平，但结婚生子太早，媳妇2胎没有工作，岳父岳母是农村的，生活很“艰难”，负债累累

年薪63万华为怀孕女员工爆料：来华为三年了，目前刚怀孕，越发觉得卷不动了，想换个舒心又稳定的工作，该做什么呢？

同事月薪2万，天天加班，降薪到1.5万跳槽到一家新公司。他说：现在能准时下班，比啥都香！

华为员工爆料：华为里面的斗争还是很严重的，领导18级，年薪百万，还是被退休了，专家岗堪忧，这么卷！

10月份养老金完成并轨，体制内退休待遇将大幅缩水？

学姐：上海的科技独角兽公司，第一名竟然是它！

互联网员工爆料：P7，年薪100多万，女朋友处了7年。丈母娘竟说，只要我考上当地的公务员，哪怕一个月2k也把女儿嫁给我

别再内卷了！小城房价2w元起，小姐姐已开启“退休”模式！

学姐：秋招了！来冲冲这些中国的科技独角兽公司！

说好的消费降级？2024年上半年互联网财报刷新你的认知！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉