傅盛带领公司,正在搅动AI数据服务行业的一池春水。
作者|王艺
大模型狂飙700天,真正能实现落地应用的却寥寥无几。
国联证券曾经做过统计,在A股全部上市公司的2023年财报中,有883家公司提到了生成式AI业务,但是超过一半的一级行业渗透率不超过10%;生成式AI在A股上市公司的整体渗透率也不足20%。
很多企业在落地大模型的过程中,遇到的问题都是共性的,包括明确有商业价值的场景有限、缺乏人才导致模型落地工程化能力不足等。
但上述问题还只是小问题。如果站在整个To B市场企业数字化的角度看,我们会发现,阻碍中国大模型落地应用的,仍然是模型能力的不足:数学推理能力差、资源利用效率不足、行业知识缺失导致模型性能不佳……等种种原因阻碍着大模型商业化落地的发展,而造成这些现象的最核心原因,是缺乏高质量数据集。
众所周知,数据、算力和算法,是支撑大模型发展的三大基石。在如今十万卡集群紧锣密鼓建设、英伟达GPU“一年一迭代”的情况下,算力的供应俨然已不成问题;GPT-4、Llama、Claude等主流模型演进的过程中,Transformer架构的地位也依然坚挺;而数据,则成为了各个大模型厂商之间竞争的关键——数据作为大模型的“燃料”,其质量、多样性与规模直接决定了大模型性能的天花板,尤其是训练流程的后两个阶段(SFT与RLHF,详见《大模型套壳祛魅:质疑套壳,理解套壳|甲子光年》)。
这也让AI数据服务成为了一个火热的赛道。随着大模型的开发的火热,众多企业纷纷涌入这个赛道。这其中不仅有科技巨头和专业数据服务商,更是不乏很多初创公司,其中就包括估值138亿美元、在全球AI初创公司中的估值排名仅次于OpenAI的Scale AI。
这其中,科技巨头拥有客户资源,专业型数据服务商拥有低成本的人力服务优势,创业公司则“重技术,轻人力”。然而,在这个领域,同时具备客户资源、技术优势和对用户需求精准洞察的公司却不多,猎户星空是这之中少有的一个。
11月27日,猎户星空联合聚云科技举办了题为《Data Ready for Al,MoE大模型发布暨商业闭环分享》媒体见面会。猎户星空正式发布了自主研发的Orion-MoE8×7B大模型,并携手聚云科技推出了基于该大模型的数据服务产品——AI数据宝AirDS(AI-Ready Data Service)。
一家以AI技术驱动的公司,正在搅动AI数据服务行业的一池春水。
1.既要效果好,又要速度快
在大模型发展到高度成熟与精细化的今天,卷参数、卷算力、卷价格的时代已经远去,大模型企业之间的竞争已经演变成了对客户需求了解程度的竞争。谁能将用户的业务场景和私有数据融合得更好,谁就能在激烈的大模型竞争中胜出。
MoE模型的优点早在2023年12月Mistral 8×7B发布的时候就已经被市场验证,随后各个公司的MoE架构模型也发了一茬又一茬。那为什么到了2024年底,猎户星空还要发布MoE模型?
这与猎户星空的战略有关。作为一家成立于2016年的公司,猎户星空在2022年之前相继推出了智能语音交互产品豹小秘、智能室内导航产品招财豹、机械臂智咖大师等服务机器人,又在2024年1月发布了自研的“为企业应用而生”的百亿参数大语言基座模型Orion-14B,精准踩中了AI的每一波技术浪潮。
可以说,猎户星空是一家完整经历了AI 1.0和AI 2.0两个时代的公司。
长年AI行业的经历和经年累月服务To B客户的经验,让猎户星空在打磨自己技术能力的同时,也对用户需求有了更精准的洞察。
在服务客户的过程中,猎户星空发现,很多行业客户不具备训练自己模型的能力;而具备模型训练能力的客户,在模型的使用上又存在问题,比如在高频交付场景下模型效率低下、反应迟钝等,或者是频繁调用大模型导致成本过高的问题。
除了通过加大算力、训练数据量、参数量更大、能力更强的模型,解决这一问题的最好办法,是将模型稀疏化,将任务分解成不同的子任务并由不同的“专家”网络来处理这些子任务的架构,也就是所谓的MoE(Mixture of Experts,混合专家)模型。
相较于传统的dense(稠密)模型,MoE模型通过采用专家网络的稀疏激活机制,显著减少了每次前向传播所需的计算量,可以有效加快训练速度、降低运行延迟;由于每次只激活一小部分专家进行工作,MoE模型实际上使用的参数量远少于同等规模的稠密模型,可以用更少的有效参数达到相似甚至更好的性能;此外,在模型的可扩展性、灵活性、适应性、能源效率等方面,MoE模型也有更明显的优势。
猎户星空认为,模型并非越大越好,匹配企业需求的更好。由此,在本次大会上,猎户星空发布了Orion-MoE 8x7B模型。这款大模型是猎户星空自主研发的开源混合架构专家大模型,拥有8×70亿参数,采用了生成式混合专家的设计,涵盖了中文、英语、日语、韩语等多种语言,展现出卓越的性能。
就“为什么2024年底,猎户星空还要发布MoE模型?"问题,猎户星空首席科学家韩堃给出了具体解答。他表示,猎户星空做MoE模型,主要是客户需求驱动。
“其实我们在今年年初发布Orion-14B模型之后,很快我们就和一些企业客户打造了一系列AI产品,包括AI超级带教、DecisionAI等。在这一过程中,我们对客户需求有了更进一步的了解,也知道了客户最想要什么样的模型去构建它的AI应用,其实就是一句话:既要效果好,又要速度快。”韩堃说。
韩堃表示,MoE模型的架构其实在2022年之前就有了,2022年ChatGPT掀起大模型的浪潮之后,虽然市面上的MoE模型越来越多,但是绝大多数都是海外厂商,如Google、Meta、Mistral等推出的,这些厂商的模型能力还不错,但是在语言能力、推理速度等方面表现稍差。“所以一方面基于客户的需求,另一方面考虑到技术的迭代,我们在今年上半年就开始从数据方面做准备,经过几个月的训练迭代,正式推出了我们的MoE模型。”韩堃说。
在主流的公开基准评测中,Orion-MoE8×7B与同规模参数级别的基座大模型对比,各项评测指标均表现优异,特别是在多语言能力方面展现出强大实力。此外,在推理速度方面也表现抢眼,显著高于同等参数规模的稠密模型。
Orion-MoE 8×7B推理速度显著优于Qwen2.5-32B,图源:猎户星空
2.大模型“炼丹”容易“修仙”难
正如前文提到的,尽管模型能力在不断增强,但是真正决定大模型厂商孰胜孰负的,是对客户需求的理解程度。
在国内越来越内卷的情况下,越来越多企业选择出海寻求商业增长机会。比如支付宝通过与当地金融机构合作、设立子公司、提供数字支付解决方案等方式,积极拓展国际市场;比亚迪在欧洲、北美、东南亚等地设有生产基地和销售网络,成为全球领先的新能源汽车制造商之一。
大模型时代到来之后,很多出海企业希望通过大模型赋能自己的业务,纷纷给自己的海外业务平台上了大模型。但是在将大模型落地出海业务的过程中,出海企业遇到了各种各样的问题,比如有通信行业企业在将大模型落地海外业务的时候遇到了语言本地化、翻译不准确的问题,也有互联网娱乐企业在海外业务中遇到了模型“听不懂人话”、无法实现准确的指令遵循等问题。
之所以造成这些问题,和出海企业不了解用户需求、以及模型能力不足、数据质量不够有很大关系。
在猎豹移动董事长兼CEO、猎户星空董事长傅盛看来,大模型之间的竞争,本质上就是数据的竞争。“算力总体上就是买英伟达的,主要是看有没有钱;算法大家做地其实都差不多,只要第一版算法不太差,最后就看机遇;但只有数据,是一层没人愿意捅破的窗户纸。”傅盛说。
傅盛表示,在算力和算法很难做出差异化的当下,今天大模型行业真正的壁垒来自数据。如何把高质量数据找出来、和应用高度结合,是决定大模型公司成败的关键。
“我跟朱啸虎私下聊,他说现在整个互联网上所有能够应用于训练的数据是20个T,20T训进去之后就没有数据了,参数量上来也不行。很多厂商想了一个办法是用GPT-4的模型把数据做自动化标注,然后再喂给模型,后来发现大模型咀嚼过的数据刚开始用挺好的,用得多了大模型会变傻。”傅盛说,“今天你能看到一些模型质量不错,核心都在数据上,如果大家读Llama2的论文,会发现他们花很大的篇幅讲如何提高数据的质量。”
傅盛所言非虚。尽管当下中国已经有不少企业基于大模型开发应用,但是在应用的“能用”与“好用”之间,横亘着一条巨大的鸿沟,很多企业在基于大模型搭建AI应用的时候,发现幻觉问题很严重,正确率上不去,尤其是将应用与具体行业场景适配的时候,更加难以推动。猎户星空认为,根本原因出在大模型和应用之间的“链接”,也就是AI数据服务。
图源:猎户星空
图源:猎户星空
图源:猎户星空
图源:猎户星空
3.整合各方优势,构建商业闭环
图源:猎户星空
猎户星空在AI数据服务方面的优势 图源:猎户星空
END.