AI应用越来越受到更大的关注,已成AI时代的宠儿。支撑AIGC应用的是大语言模型。昨天微软的开源AI小模型Phi-2修改为MIT协议,引起不少的关注,为什么AI大模型时代AI小模型受到这么多的关注呢?
大模型的“规模不经济”
AI大语言模型虽然强大,但需要大量的计算资源。大语言模型的训练成本高昂是一个重大痛点。例如,GPT-3这样的大语言模型使用近10000块NVIDIA V100显卡,花费超400万美元。
什么是大语言模型(Large Language Model)?
现在也经常被称通俗称为“AI大模型”,大模型就像是一个巨大的、装满书籍和知识的图书馆。而ChatGPT等AI应用则像是一个专门的图书管理员,ChatGPT不仅知道图书馆里有哪些书,还懂得如何利用这些书籍中的知识来回答问题或者进行对话。大模型是ChatGPT等AI应用的基础引擎。
GPT-3有1750亿参数,估计GPT-4参数多达1万亿,成本多高可想而知。因此,想要训练具有复杂推理能力的AI大模型的企业或组织,往往要考虑算力的投资,或受限于算力的巨额投资。
如何解决算力成本高昂问题?
有没有仅需较少的计算能力即可运行的AI模型呢?替代方案是小语言模型(SmallLanguage Model ) ,它为大语言模型LLM 提供了一种经济高效的替代方案。让AI更加平民化惠及更多的用户,满足更多样化的需求。AI小模型本质上是AI大模型缩小版本。与动辄数千亿甚至万亿参数的大模型相比,小模型的参数规模就小得多了,一般只有几百万到几十亿参数。小规模参数带来了以下几个优点:
效率更高:需要的计算能力和内存较少,使其适合在小型设备甚至边缘计算场景中部署。这为现实世界的应用开辟了新机会,如设备内聊天机器人和个性化移动助手。
易用性:由于对资源要求较低,会吸引更广泛的开发者。这使得AI平民化,让小团队和个体研究者能够在不需要大量算力投资的情况下探索语言模型的能力。
更容易定制:更易于针对特定领域和任务进行微调。这使得创建专门针对小众应用的定制模型成为可能,从而提高性能和准确性。
通过知识蒸馏、剪枝和量化、架构性能和效率的优化。小语言模型可以使用相对较小的数据集进行训练。它们简化的架构提高了可解释性,紧凑的大小便于在移动设备上部署。它们能够在本地处理数据,这对于物联网(IoT)边缘设备和受严格隐私和安全法规约束的企业来说尤其宝贵。
然而,部署小语言模型需要考虑权衡。由于它们在较小的数据集上进行训练,与大语言模型(LLM)相比,小语言模型只有更有限的知识库。此外,它们对语言和上下文的理解也往往更有限,可能导致与与大模型相比,响应的准确性和细腻度较低。
目前市面上已经有了小模型一些案例,如:DistilBERT、Orca 2、Phi-2、BERT (Mini、Small、Medium、Tiny)、GPT-Neo&GPT-J、MobileBERT、T5-Small。文章后面附简介及下载链接。
开发者的好消息
昨天微软的开源AI小模型Phi-2修改为"MIT"协议,Phi-2是一个基于Tansformer的小语言模型 (SLM),专为提高云和边缘部署的效率和适应性而设计。微软称,Phi-2 在数学推理、常识、语言理解和逻辑推理等领域展现了最先进的性能。虽然参数只有 2.7B,号称其性能可媲美GPT-3.5。将Phi-2的开源协议修改为"MIT"协议意味着任何人都可以不受限制处理该模型,包括下载、使用、修改、合并、分发、售卖等,这无疑给了小模型研究用户很大的自由。
开源许可协议Open Source License
指开源社区为了维护作者和贡献者的合法权利,保证软件不被一些商业机构或个人窃取,影响软件的发展而开发的协议,常见协议如:GPL、BSD、MIT、Mozilla、Apache 、LGPL。MIT许可协议是一个给使用者很大自由的协议。可以自由使用、修改源码,也可以将修改后的代码作为开源或者专有软件再发布。
随着研发的进展,可以期待小模型将变得更强大和更多功能。随着训练技术的改进、硬件的进步和高效架构的发展,小模型SLMs和大模型LLMs之间的差距将继续缩小。这将为更多的应用打开AI大门,进一步推动AI影响我们生活的潜力。
总之,小语言模型代表了AI领域的重大转变。它的高效、低门槛和定制能力使其成为各个领域的开发者和研究者的宝贵工具。随着小模型的不断发展,它将赋予个人和组织以力量,塑造一个AI不仅强大,而且易用和适应多样化需求的未来。
小语言模型(SLMs)的一些示例
DistilBERT:DistilBERT是BERT的一个更紧凑、更灵活、更轻量的迭代版本,BERT是自然语言处理(NLP)领域的先驱模型。
网址: https://huggingface.co/docs/transformers/model_doc/distilbert
Orca-2:由微软开发的Orca 2是通过使用高质量合成数据对Meta的Llama-2进行微调的结果。这种创新方法使微软能够在特别是零样本推理任务方面达到与大型模型相当或超越的性能水平。
网址:https://huggingface.co/microsoft/Orca-2-13b
Phi-2:微软的Phi-2是一种基于Tansformer的小型语言模型(SLM),专为云和边缘部署中的效率和适应性而设计。
网址:https://huggingface.co/docs/transformers/main/model_doc/phi
BERT Mini、Small、Medium & Tiny:谷歌的BERT模型提供了缩小的版本——从具有440万参数的Mini到具有4100万参数的Medium——以适应不同的资源限制。
网址: https://huggingface.co/prajjwal1/bert-mini
GPT-Neo&GPT-J:GPT-Neo&GPT-J是OpenAI的GPT模型的缩小版本,为计算资源有限的应用场景提供多功能性。
网址: https://huggingface.co/docs/transformers/model_doc/gpt_neo
MobileBERT:专为移动设备量身定制,MobileBERT旨在优化移动计算的性能限制内的性能。
网址: https://huggingface.co/docs/transformers/model_doc/mobilebert
T5-Small:作为谷歌的文本to文本Tansformer(T5)模型系列的一部分,T5-Small在性能和资源利用之间取得了平衡,旨在提供高效的文本处理能力。
网址: https://huggingface.co/t5-small