持续学习如何终结大模型的灾难性遗忘?这里有一份来自创业公司的实操案例

文摘   2024-07-25 18:03   北京  

近年来,随着大语言模型(LLMs)技术的飞速发展,其在众多下游任务中展现出的卓越能力引起了广泛关注。然而,在应对特定领域时,通用型大模型往往难以精准贴合实际需求,其表现存在局限性。针对这一挑战,灵智AI于近日推出了自主训练的首个垂直领域专用大模型——灵智大语言模型,标志着灵智在智能化解决方案领域的又一重大突破。

灵智大模型精准定位于垂直细分领域,特别聚焦于财会、法律等高度专业化的领域,旨在为用户提供更加精准、深入的专业知识解答与指导。这一举措不仅展现了灵智AI在技术深度与广度上的不断探索与突破,也预示着未来AI技术将更加深入地融入并优化各行业的日常工作流程,开启智能化服务的新篇章。

灵智CEO黄鹏杰深入剖析了当前挑战与解决方案:“现有的大语言模型(LLMs)在通用领域表现良好,但由于在预训练或指令微调期间缺乏特定领域的专业暴露,它们可能在用户需要的特定领域(如会计、法律、金融)中表现不佳。为了提升LLMs在特定领域的表现,我们需要收集相应的数据进行持续学习。然而,仅在特定领域进行持续学习可能导致通用能力的灾难性遗忘。

在当下的训练任务上,最常用的解决灾难性遗忘的方法,是将要学习的新数据和旧数据混合后从头开始训练,这导致了任何能力的增加都需要花费从零开始训练的成本,边际学习成本随着能力增加而不断递增。学术上已经出现了Elastic Weight Consolidation(EWC)、Context-dependent Processing(CDP)等在一定程度上解决问题的方案,但是仅限于小规模实验室的理论验证;由于大模型训练的复杂性,当前已知的持续学习方法难以在大模型实际训练中得以应用。

在当下的推理任务上,通常部署一个未修改的原生模型用于通用任务,再同步部署一个垂直微调模型用于专业任务。这将对计算硬件资源(如GPU和内存)提出巨大的需求,从而阻碍商业性发展。

为了解决这个问题,我们进行了实证研究,探索了各种持续学习范式并总结了它们的优缺点。经过尝试,我们的技术团队取得了一些成果:第一,在垂类领域训练场景下,灵智模型能够在提升垂类领域性能的同时也保持了通用领域的性能;第二,在一定程度上,将解决“灾难性遗忘(catastrophic forgetting)”问题落到了实际的大模型生产中;第三,通过特有的“持续学习”的方法,用最低的成本完成垂直领域模型的更新边际学习成本大幅下降,提升同等能力需要的边际学习成本仅为零基训练的5%。”

黄鹏杰直言,我们选择了最佳的学习范式和训练数据,以实现在任意模型上持续训练达到能力提升。实践中,我们选择了Qwen2-base进行持续学习,衍生出我们的灵智系列模型。经过大量实验,灵智能够在多个特定领域中表现出色,同时在通用能力方面也表现出与原始Qwen2-chat模型相当的性能。并且灵智AI团队(北京灵智之光人工智能技术有限公司)开源了8个灵智模型:Lingzhi-0.5B-chat,Lingzhi-0.8B-chat,Lingzhi-1.5Bchat,Lingzhi2.7Bchat, Lingzhi-7B-chat,Lingzhi-10B-chat, Lingzhi-57MOE14B-chat, Lingzhi-72B-cha;同时开源了我们精心整理的数据集Lingzhi-SFT-data-61w。

目前,灵智大模型已正式开放下载,诚邀各界体验其强大功能。关于未来的商业化布局,黄鹏杰认为,各行业对AI的期待普遍为AGI,在AGI实现的道路上,经济性和实用性也是必要的工作。灵智AI旨在让AI以真正有经济效用的价格为各行各业赋能,公司一方面将持续就AGI领域、成本优化领域进行探索,另一方面也将以具有竞争力价格拓展各行业的客户,结合大语言模型及应用为客户提供服务,灵智AI会持续推动AI技术的边界拓展与应用深化。

围绕灵智大模型,以下是黑智与黄鹏杰的沟通:

“灵智大语言模型本质上是一套持续学习的方法”

1.能否介绍一下灵智AI的产品体系是什么样的?

答:灵智AI从模型端和应用端提供产品和服务,应用端我们目前的主力产品是AI数字人一体机,是基于大模型和Agent、Copilot的应用型智能人,应用于办公、文旅、医疗等领域;模型端我们提供基于持续学习方法的训练服务,并且也会基于训练的垂直领域模型的特点提供进一步的适配SaaS服务。我们的理念里,AI还是以实用为核心,因此贴近实际需求解决痛点,是我们应用的出发点,大模型在其中提供的是自然语言的理解能力、规划能力、表达能力等等,当模型能力不足时,我们会通过训练来提升模型的能力。

2.灵智AI的产品体系如何发展而成?

答:灵智公司创立以来持续关注大模型的落地应用,2023年大语言模型以对话为主要场景,彼时Agent刚刚兴起,灵智AI便在Agent上投入,我们认为大模型要做一些事情,而不是简单的对话;同时为了降低AI交互的门槛,以数字人为交互载体,发展出了我们的AI数字人一体机。同时,在模型能力方面,我们发现模型的特定能力训练的需求旺盛,但由于成本高昂并没有有效的产生市场化的行为,因此我们在持续学习领域发力,大幅降低了模型训练的成本,也为自己的应用提供了更多的可扩展性。

3.灵智大语言模型是如何打造而成的?

答:灵智大语言模型,本质上是一套持续学习的方法,是基于任意模型上提升垂直领域能力的同时不产生灾难性的遗忘。灵智大模型的核心是数据,因为模型训练的本质是模型对训练数据分布的逼近,我们收集了超过40TB的数据,并精心整理了超过200GB的高质量数据集;在训练方法上,我们使用实证方法选择了最佳的学习范式,使得训练能够快速完成,达到良好的表现。灵智大模型训练过程中的核心难点就是数据质量的定义,微软关于Phi的论文中,提及了数据质量将影响模型表现,但是对于何为“高质量数据”并没有明确的标准,我们在定义数据质量、收集和整理数据方面进行了大量工作。我们已经将开源了我们微调数据,希望能够给同业的朋友提供一些便利。

4.接下来产品迭代的规划是什么样的?

答:我们在大语言模型本身的研发上,以AGI为方向提升模型能力,包括“自我边界认知”、“数理逻辑能力”等。在应用方面,我们将以AI数字人一体机为主要载体,扩展各类场景的Agent、Copilot功能。我们在未来2年会重点在行政办公、文旅、教育、法律4个领域发力。

“给需要使用大模型的人提供一个选择”

1.选择开源的逻辑是什么?

答:在探讨这个之前,需要先知道大模型和传统的代码项目开源是有着本质的区别的。大模型本身是一个分布,而不是一套算法,大模型的训练过程决定了它是难以被精准复现的。传统的代码逻辑是有确定性的,因此当拿到开源的代码时,是能够精准复现,并在其基础上做精准控制和修改的;大模型要想达成这样的目的,需要公开模型架构、数据集、训练超参数、训练周期、训练方法和顺序等一系列的信息,而且即使公开了,由于分布的概率表现,也无法做到100%复现。所以对于只开源模型参数和算法的大模型,只是开源了一个应用,而不是开源一套完整的方案。

我们这次开源内容的除了模型参数以外,还有核心的数据集、训练方法的选择,是一套相对完整内容。我们希望能够在大模型通往AGI的路上做出一些贡献。我们欢迎更多的合作,同时我们也相信,只有当AI真正应用于需求解决时候,它的价值才能被发挥出来。

2.开源8个灵智模型的初衷是什么?

答:开源的模型,希望能够给需要使用大模型的人提供一个选择,同时也是对我们模型训练能力的一个印证。最重要的是,我们希望通过开源模型、数据和训练方法这样完整的方案,让更多同业能够复现我们的成果,促进当下的大模型快速走向工业化,给行业带来更多经济利益,以促进大模型向下一阶段发展,逐步实现AGI,为社会带来更多便利。

“开源的商业模型是比较难的”

1.主要目标用户群体是哪些?如何吸引、留住用户?

答:灵智大语言模型,主要输出的是模型的低成本训练能力,主要目标用户是对大模型垂直领域能力提升有需求的客户,包括大模型应用开发企业、传统以脑力劳动服务为主的企业,如心理咨询、教培机构、律师事务所等。我们将提供测试入口,允许用户试用能力,同时除了模型训练,还为客户规划产品应用的开发方案,完成一站式的服务。

模型应用方面,在国内大模型激烈的竞争环境下,大语言模型本身靠输出tokens和API难以盈利,我们聚焦基于大模型的场景应用,包括能够出具准确合同的法律助手、能够在多种场合进行角色工作的数字人一体机。其中数字人一体机是我们主要的商业产品,主要客户包括医院、企业办公前台、文旅景区等。商业推广中,我们推出体验活动,将有数字人限时入驻的活动,同时我们不断地采集需求、更新Agent和Copilot应用,使应用更加丰富和实用,提升用户的使用频率,提高用户粘性。

2.灵智是以何种方式提供服务?

答:模型的训练是项目制的,因为不同行业和企业的需求不同,对于训练数据的要求不同,因此以项目需要定制化的做数据工作和训练工作。数字人一体机是标准化产品,支持轻量的功能定制。

3.用户如何将灵智大语言模型纳入其中?

答:大语言模型当下的核心能力是自然语言的理解、问答和任务规划,在用户已经有的产品上,核心是加入以上三项能力,可以将情景判断相关的功能的选择交给自然语言的理解,将产品的输出或中间输出交给大模型问答;如果需要引入任务规划能力,产品的修改内容会更多。项目的实施难度取决于功能的需求,大模型应用开发已经有了标准化的接口,未来会有更多行业垂直领域的的应用接入灵智大模型。

4.如何基于开源,构建灵智AI的商业模式?

答:开源的商业模型是比较难的,我们开源的将是多个垂直领域的模型,但是对于更细分企业的定制化能力,还是需要进一步训练的。通过开源能力,让更多企业知道我们能力的差异和区别,有助于客户评估垂直领域能力提升的预期,从而促进模型定制训练业务的产生。我们也将整合基于开源模型能力的优秀应用,在我们的数字人一体机上,打造企业的智慧大脑,构建一套基于灵智垂直模型的应用平台。

AGI应由基于大语言模型的强大大脑和基于视觉、运动模型的身体组成

1.对AGI的实现有何看法?灵智AI在AGI方面的具体研究和发展方向是什么?

答:AGI似乎没有一个精准的定义,有个广泛认同的观点是“AI被短期高估、长期低估”,我接触不同行业的人时,他们认为AI什么都能做,人们对于AI的普遍期待是AGI,当AGI真的到来时,才会真正改变世界。

在我的理解中,AGI应该是具有基于大语言模型向上发展出来的超强大脑和基于视觉、运动模型发展的身体。我们的研究关注的是超级大脑,目前在边界认知、数理逻辑方面进行研究,前者试图探究AI的“自我意识”,后者关注AI的数理能力;当然在这个过程中,我们也实时关注AI发展的安全问题。

2.如何看待AI技术在未来3-5五年的发展趋势?

答:AI的场景应用会不断深化,会有更多的Agent和Copilot应用出现,进入到生产、生活中。成本优化方面,硬件的成本有一定的瓶颈,在新的芯片架构广泛生产之前,大模型的推理成本只能依赖于模型自身能力提升,使用更小参数的模型来降低成本。当然,大模型会出现迭代,数理逻辑能力会大幅提升,这是大模型质的飞跃,会带来一次革命性的变化,这会导致当下的一些项目直接被模型能力替代,AGI会加速到来。

3.灵智AI在推动AI技术边界拓展方面有哪些具体举措和目标?

答:我们除了在已经的能力领域不断增加垂直模型的训练,也将联合一些科研机构进行更多的实验,我们的主要目标是在未来的5年内发现探索AI自我意识的机制与数理逻辑能力的机制。


推荐阅读

朱啸虎看完15个AI项目,留下了这些你不能不看的金句

【万字解读】创业一年就套现,杨植麟的“技术理想主义”是真的吗?

*本号系数智云科旗下人工智能领域垂直号。黑智,人工智能领域产业服务平台,专注AI行业报道,探讨AI商业价值。

点击关注人工智能领域垂直号黑智
了解更多AI产业资讯
👇👇👇

黑智
人工智能领域产业服务平台,专注AI行业报道,探讨AI商业价值。
 最新文章