持续学习如何终结大模型的灾难性遗忘？这里有一份来自创业公司的实操案例

文摘 2024-07-25 18:03 北京

近年来，随着大语言模型（LLMs）技术的飞速发展，其在众多下游任务中展现出的卓越能力引起了广泛关注。然而，在应对特定领域时，通用型大模型往往难以精准贴合实际需求，其表现存在局限性。针对这一挑战，灵智AI于近日推出了自主训练的首个垂直领域专用大模型——灵智大语言模型，标志着灵智在智能化解决方案领域的又一重大突破。

灵智大模型精准定位于垂直细分领域，特别聚焦于财会、法律等高度专业化的领域，旨在为用户提供更加精准、深入的专业知识解答与指导。这一举措不仅展现了灵智AI在技术深度与广度上的不断探索与突破，也预示着未来AI技术将更加深入地融入并优化各行业的日常工作流程，开启智能化服务的新篇章。

灵智CEO黄鹏杰深入剖析了当前挑战与解决方案：“现有的大语言模型（LLMs）在通用领域表现良好，但由于在预训练或指令微调期间缺乏特定领域的专业暴露，它们可能在用户需要的特定领域（如会计、法律、金融）中表现不佳。为了提升LLMs在特定领域的表现，我们需要收集相应的数据进行持续学习。然而，仅在特定领域进行持续学习可能导致通用能力的灾难性遗忘。

在当下的训练任务上，最常用的解决灾难性遗忘的方法，是将要学习的新数据和旧数据混合后从头开始训练，这导致了任何能力的增加都需要花费从零开始训练的成本，边际学习成本随着能力增加而不断递增。学术上已经出现了Elastic Weight Consolidation（EWC）、Context-dependent Processing（CDP）等在一定程度上解决问题的方案，但是仅限于小规模实验室的理论验证；由于大模型训练的复杂性，当前已知的持续学习方法难以在大模型实际训练中得以应用。

在当下的推理任务上，通常部署一个未修改的原生模型用于通用任务，再同步部署一个垂直微调模型用于专业任务。这将对计算硬件资源（如GPU和内存）提出巨大的需求，从而阻碍商业性发展。

为了解决这个问题，我们进行了实证研究，探索了各种持续学习范式并总结了它们的优缺点。经过尝试，我们的技术团队取得了一些成果：第一，在垂类领域训练场景下，灵智模型能够在提升垂类领域性能的同时也保持了通用领域的性能；第二，在一定程度上，将解决“灾难性遗忘(catastrophic forgetting)”问题落到了实际的大模型生产中；第三，通过特有的“持续学习”的方法，用最低的成本完成垂直领域模型的更新边际学习成本大幅下降，提升同等能力需要的边际学习成本仅为零基训练的5%。”

黄鹏杰直言，我们选择了最佳的学习范式和训练数据，以实现在任意模型上持续训练达到能力提升。实践中，我们选择了Qwen2-base进行持续学习，衍生出我们的灵智系列模型。经过大量实验，灵智能够在多个特定领域中表现出色，同时在通用能力方面也表现出与原始Qwen2-chat模型相当的性能。并且灵智AI团队（北京灵智之光人工智能技术有限公司）开源了8个灵智模型：Lingzhi-0.5B-chat,Lingzhi-0.8B-chat,Lingzhi-1.5Bchat,Lingzhi2.7Bchat, Lingzhi-7B-chat,Lingzhi-10B-chat, Lingzhi-57MOE14B-chat, Lingzhi-72B-cha；同时开源了我们精心整理的数据集Lingzhi-SFT-data-61w。

目前，灵智大模型已正式开放下载，诚邀各界体验其强大功能。关于未来的商业化布局，黄鹏杰认为，各行业对AI的期待普遍为AGI，在AGI实现的道路上，经济性和实用性也是必要的工作。灵智AI旨在让AI以真正有经济效用的价格为各行各业赋能，公司一方面将持续就AGI领域、成本优化领域进行探索，另一方面也将以具有竞争力价格拓展各行业的客户，结合大语言模型及应用为客户提供服务，灵智AI会持续推动AI技术的边界拓展与应用深化。

围绕灵智大模型，以下是黑智与黄鹏杰的沟通：

“灵智大语言模型本质上是一套持续学习的方法”

1.能否介绍一下灵智AI的产品体系是什么样的？

答：灵智AI从模型端和应用端提供产品和服务，应用端我们目前的主力产品是AI数字人一体机，是基于大模型和Agent、Copilot的应用型智能人，应用于办公、文旅、医疗等领域；模型端我们提供基于持续学习方法的训练服务，并且也会基于训练的垂直领域模型的特点提供进一步的适配SaaS服务。我们的理念里，AI还是以实用为核心，因此贴近实际需求解决痛点，是我们应用的出发点，大模型在其中提供的是自然语言的理解能力、规划能力、表达能力等等，当模型能力不足时，我们会通过训练来提升模型的能力。

2.灵智AI的产品体系如何发展而成？

答：灵智公司创立以来持续关注大模型的落地应用，2023年大语言模型以对话为主要场景，彼时Agent刚刚兴起，灵智AI便在Agent上投入，我们认为大模型要做一些事情，而不是简单的对话；同时为了降低AI交互的门槛，以数字人为交互载体，发展出了我们的AI数字人一体机。同时，在模型能力方面，我们发现模型的特定能力训练的需求旺盛，但由于成本高昂并没有有效的产生市场化的行为，因此我们在持续学习领域发力，大幅降低了模型训练的成本，也为自己的应用提供了更多的可扩展性。

3.灵智大语言模型是如何打造而成的？

答：灵智大语言模型，本质上是一套持续学习的方法，是基于任意模型上提升垂直领域能力的同时不产生灾难性的遗忘。灵智大模型的核心是数据，因为模型训练的本质是模型对训练数据分布的逼近，我们收集了超过40TB的数据，并精心整理了超过200GB的高质量数据集；在训练方法上，我们使用实证方法选择了最佳的学习范式，使得训练能够快速完成，达到良好的表现。灵智大模型训练过程中的核心难点就是数据质量的定义，微软关于Phi的论文中，提及了数据质量将影响模型表现，但是对于何为“高质量数据”并没有明确的标准，我们在定义数据质量、收集和整理数据方面进行了大量工作。我们已经将开源了我们微调数据，希望能够给同业的朋友提供一些便利。

4.接下来产品迭代的规划是什么样的？

答：我们在大语言模型本身的研发上，以AGI为方向提升模型能力，包括“自我边界认知”、“数理逻辑能力”等。在应用方面，我们将以AI数字人一体机为主要载体，扩展各类场景的Agent、Copilot功能。我们在未来2年会重点在行政办公、文旅、教育、法律4个领域发力。

“给需要使用大模型的人提供一个选择”

1.选择开源的逻辑是什么？

答：在探讨这个之前，需要先知道大模型和传统的代码项目开源是有着本质的区别的。大模型本身是一个分布，而不是一套算法，大模型的训练过程决定了它是难以被精准复现的。传统的代码逻辑是有确定性的，因此当拿到开源的代码时，是能够精准复现，并在其基础上做精准控制和修改的；大模型要想达成这样的目的，需要公开模型架构、数据集、训练超参数、训练周期、训练方法和顺序等一系列的信息，而且即使公开了，由于分布的概率表现，也无法做到100%复现。所以对于只开源模型参数和算法的大模型，只是开源了一个应用，而不是开源一套完整的方案。

我们这次开源内容的除了模型参数以外，还有核心的数据集、训练方法的选择，是一套相对完整内容。我们希望能够在大模型通往AGI的路上做出一些贡献。我们欢迎更多的合作，同时我们也相信，只有当AI真正应用于需求解决时候，它的价值才能被发挥出来。

2.开源8个灵智模型的初衷是什么？

答：开源的模型，希望能够给需要使用大模型的人提供一个选择，同时也是对我们模型训练能力的一个印证。最重要的是，我们希望通过开源模型、数据和训练方法这样完整的方案，让更多同业能够复现我们的成果，促进当下的大模型快速走向工业化，给行业带来更多经济利益，以促进大模型向下一阶段发展，逐步实现AGI，为社会带来更多便利。

“开源的商业模型是比较难的”

1.主要目标用户群体是哪些？如何吸引、留住用户？

答：灵智大语言模型，主要输出的是模型的低成本训练能力，主要目标用户是对大模型垂直领域能力提升有需求的客户，包括大模型应用开发企业、传统以脑力劳动服务为主的企业，如心理咨询、教培机构、律师事务所等。我们将提供测试入口，允许用户试用能力，同时除了模型训练，还为客户规划产品应用的开发方案，完成一站式的服务。

模型应用方面，在国内大模型激烈的竞争环境下，大语言模型本身靠输出tokens和API难以盈利，我们聚焦基于大模型的场景应用，包括能够出具准确合同的法律助手、能够在多种场合进行角色工作的数字人一体机。其中数字人一体机是我们主要的商业产品，主要客户包括医院、企业办公前台、文旅景区等。商业推广中，我们推出体验活动，将有数字人限时入驻的活动，同时我们不断地采集需求、更新Agent和Copilot应用，使应用更加丰富和实用，提升用户的使用频率，提高用户粘性。

2.灵智是以何种方式提供服务？

答：模型的训练是项目制的，因为不同行业和企业的需求不同，对于训练数据的要求不同，因此以项目需要定制化的做数据工作和训练工作。数字人一体机是标准化产品，支持轻量的功能定制。

3.用户如何将灵智大语言模型纳入其中？

答：大语言模型当下的核心能力是自然语言的理解、问答和任务规划，在用户已经有的产品上，核心是加入以上三项能力，可以将情景判断相关的功能的选择交给自然语言的理解，将产品的输出或中间输出交给大模型问答；如果需要引入任务规划能力，产品的修改内容会更多。项目的实施难度取决于功能的需求，大模型应用开发已经有了标准化的接口，未来会有更多行业垂直领域的的应用接入灵智大模型。

4.如何基于开源，构建灵智AI的商业模式？

答：开源的商业模型是比较难的，我们开源的将是多个垂直领域的模型，但是对于更细分企业的定制化能力，还是需要进一步训练的。通过开源能力，让更多企业知道我们能力的差异和区别，有助于客户评估垂直领域能力提升的预期，从而促进模型定制训练业务的产生。我们也将整合基于开源模型能力的优秀应用，在我们的数字人一体机上，打造企业的智慧大脑，构建一套基于灵智垂直模型的应用平台。

AGI应由基于大语言模型的强大大脑和基于视觉、运动模型的身体组成

1.对AGI的实现有何看法？灵智AI在AGI方面的具体研究和发展方向是什么？

答：AGI似乎没有一个精准的定义，有个广泛认同的观点是“AI被短期高估、长期低估”，我接触不同行业的人时，他们认为AI什么都能做，人们对于AI的普遍期待是AGI，当AGI真的到来时，才会真正改变世界。

在我的理解中，AGI应该是具有基于大语言模型向上发展出来的超强大脑和基于视觉、运动模型发展的身体。我们的研究关注的是超级大脑，目前在边界认知、数理逻辑方面进行研究，前者试图探究AI的“自我意识”，后者关注AI的数理能力；当然在这个过程中，我们也实时关注AI发展的安全问题。

2.如何看待AI技术在未来3-5五年的发展趋势？

答：AI的场景应用会不断深化，会有更多的Agent和Copilot应用出现，进入到生产、生活中。成本优化方面，硬件的成本有一定的瓶颈，在新的芯片架构广泛生产之前，大模型的推理成本只能依赖于模型自身能力提升，使用更小参数的模型来降低成本。当然，大模型会出现迭代，数理逻辑能力会大幅提升，这是大模型质的飞跃，会带来一次革命性的变化，这会导致当下的一些项目直接被模型能力替代，AGI会加速到来。

3.灵智AI在推动AI技术边界拓展方面有哪些具体举措和目标？

答：我们除了在已经的能力领域不断增加垂直模型的训练，也将联合一些科研机构进行更多的实验，我们的主要目标是在未来的5年内发现探索AI自我意识的机制与数理逻辑能力的机制。

推荐阅读

朱啸虎看完15个AI项目，留下了这些你不能不看的金句

【万字解读】创业一年就套现，杨植麟的“技术理想主义”是真的吗？

*本号系数智云科旗下人工智能领域垂直号。黑智，人工智能领域产业服务平台，专注AI行业报道，探讨AI商业价值。

点击关注人工智能领域垂直号黑智

了解更多AI产业资讯

👇👇👇

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NjIxMg==&mid=2247493879&idx=1&sn=5f9ce2de612c093fe883af84d43127e1

黑智

人工智能领域产业服务平台，专注AI行业报道，探讨AI商业价值。

最新文章

AI革命降速？专家称OpenAI新模型提升或微乎其微｜黑智编译

这家帮你叠衣服打扫卫生的机器人公司，估值20亿美金｜黑智编译

峰瑞资本李罡：具身智能前程远大，但每个“人”奔跑在曲折道路上

【京港AI应用加速器】首轮面试结束，最后报名机会不容错过

【聚焦互联网3.0】朝阳加快建设互联网3.0高地

任正非最新讲话：华为要向美国学习开放性、包容性

一个福建极客，正在帮实体商超重获生机

【品牌方专属邀请】集聚20+AI电商企业，推动品牌AI产业化升级……

文献书记围绕“应用场景创新促进科技成果转化”调研北京市数字人基地

184个项目报名，ITEC2024人工智能 & 互联网3.0专场赛亮点一览

ITEC2024全球创业赛人工智能及互联网3.0专场赛成功举办

2024怀柔黑马科技服务论坛举办，怀柔黑马科技加速实验室成果显著

角逐万亿隐形蓝海市场：开源情报如何靠AI更新换代

【征集通知】关于公开征集《朝阳区关于支持互联网3.0创新发展的若干措施》2024年度支持项目的通知

【征集通知】关于公开征集《朝阳区促进通用人工智能创新应用发展的若干措施》2024年度支持项目的通知

【征集通知】关于公开征集2024年朝阳区通用人工智能算力合作伙伴的通知

寻找具身智能潜力企业！2024具身智能最具投资潜力榜评选启动

安筱鹏：超越AI大模型的“加拉帕戈斯”效应

刚刚，Sam Altman发布最新预测：几千天后，人类将进入智能时代！

【最高110万资助】两地政策加持，公益项目京港AI应用加速器正式启动招募

京港洽谈会新亮点：京港AI应用加速器正式启动

吴泳铭：AI最大的想象力是接管数字世界，改变物理世界

谷歌AI机器人项目的终结：“登月计划”为何夭折｜黑智编译

OpenAI发布重磅模型o1，AI推理能力突破，智能水平向人类靠拢

大模型能力壁垒真的消失了吗？李彦宏内部讲话曝光..

高光时刻！一文看全苹果今年最重大发布会：iPhone 16、Apple Watch Series 10、新款 AirPods

AI驱动电商丨朝阳AI电商应用加速器正式开营，赋能电商企业创新发展

走出弯路：中国半导体正在走向“一个确定的未来”

牛文文：老板到底要不要做网红？

征集开始！天津市滨海新区“滨城人才服务证”专属卡面设计征集需求书发布

知网状告秘塔AI搜索侵权；腾讯回应“苹果税争议”：希望三赢正与苹果协商；美国司法部考虑分拆谷歌｜AI产业周报

张一鸣宿华帮忙出主意、黄仁勋帮忙“插队”买H100，“沐神”复盘创业第一年的进展、纠结和反思

技术精英团队领衔，打造世界级具身智能大脑，千寻智能宣布完成近2亿元天使轮融资

马斯克“复仇诉讼”OpenAI及其创始人；黄仁勋抛售近5亿美元股票；Figure AI新人形机器人“入职”宝马｜AI产业周报

如何破解“对赌回购”难题？20位大咖分享了7条方案！

Mistral AI：被法国总统赞扬，估值超60亿美元，直面微软、监管挑战｜黑智编译

星地AI应用孵化器路演日举行：24个AIGC创业项目、上百家投资机构参加，覆盖AIGC、大语言模型等多领域

苹果施压腾讯字节跳动或禁止微信抖音更新；微软将OpenAI列入竞争对手名单；英特尔宣布裁员 1.5 万人｜AI产业周报

黄仁勋对话扎克伯格：抨击闭源、互送夹克、预判下一波AI浪潮

朝阳区创投机构科技创新产业政策宣讲会顺利举行

网传百川智能A轮融资50亿元；Meta推出史上最强开源模型Llama 3.1；OpenAI推出SearchGPT｜AI产业周报

持续学习如何终结大模型的灾难性遗忘？这里有一份来自创业公司的实操案例

朱啸虎：投资AIGC企业的秘密全都藏在这九张图里

重磅发布！一文读懂北京市AI 电商应用现状及发展趋势

五大理由，速来报名！“创客北京2024”报名即将截止

关于开展新设市级政府投资基金储备项目常态化征集的通知

梅花创投吴世春：坚持向前走就是胜利

推动数实融合，2024全球数字经济大会互联网3.0高层论坛举办

牛文文：403天，一个中国AI实践者的观察与体验

疏通AI初创企业成长堵点、卡点，星地AI应用孵化器第三次活动如期举行

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉