技术突破 | 重大突破!光谷大模型首创数推分离技术创新

时事   2024-11-22 10:50   湖北  

近日,光谷企业传神语联推出任度“双脑”大模型,在业内独辟蹊径,首创“双网络数推分离”这一全新技术架构,破解大模型企业落地难题。

凭借这一创新模式,传神语联成为全球大模型领域第一家实现数推分离技术路线的人工智能企业,这也是中国人工智能在行业内的重大突破。


传神语联创始人何恩培介绍“数推分离双网络架构”


实时学习,

让大模型不再“隔岸观火”


传神语联董事长何恩培认为,大模型正在从Scaling Law时代迈向“实时学习”时代。


据工信部披露,我国完成备案并上线为公众提供服务的生成式人工智能服务大模型近200个。在大模型发展过程中,Scaling Law曾是业界遵循的“黄金法则”,但科技媒体《The Information》的报道称,OpenAI下一代旗舰模型“Orion”训练效果或远不及预期:与GPT4相比,Orion性能提升也许微乎其微。这引发了业界对大模型技术发展路径的深度思考:大模型Scaling Law是否是唯一的方向?


针对技术路线问题,何恩培表示,随着大模型技术不断发展,单纯依赖集中式暴力训练的弊端日益凸显。当下,大模型发展更注重对“智慧”的深度挖掘,具备实时学习客户数据的能力,而非仅仅盲目扩充参数规模,所以不能再单一遵循Scaling Law法则。

基于此,传神推出的任度双脑大模型,作为这一理念的实践创新,实现了模型对客户数据的实时学习,能够动态调整优化,无需离场训练,有效保障了数据的安全与隐私。

致力于让大模型不再只是“隔岸观火”的顾问,而是积极适应新的发展需求,让大模型成为客户的内部专家。


任度双脑大模型:

数推分离的创新技术突破


大模型的落地应用中最重要的就是如何与客户数据结合,并非买一个大模型那么简单,同时如果客户产生新的数据不断进入,大模型也需要“更新”,如何实现“更新”?

无非两种方法:一是基于客户数据重新训练,需要付出极高的成本,且不一定成功。更具有挑战性的是客户数据通常需要交给大模型厂商去训练,这会带来极大数据安全隐患;其二是与向量结合,大模型通过向量库搜索客户本地数据所需内容后进行推理,这种方法不能实现对客户数据的理解,准确率低。

“在落地应用中,大模型对客户数据的高效理解和挖掘是关键,但这对客户恰恰是一个两难问题。”何恩培说,“为解决这些问题,自2021年起,我们就构建了客户数据学习网络和推理网络相分离的架构,从而形成‘双脑结构’,走出了一条独特的技术发展道路。”

这一技术创新的核心在于独特的双网络架构,将客户数据学习网络与推理网络分离。其中,客户数据学习网络专注于数据的动态管理与迭代训练,持续为模型注入知识;推理网络,作为经大量数据预训练的基础网络,有良好的推理和泛化能力。双网络通过共享嵌入层和中间表示层协同工作,类似“主脑”与“辅脑”的高效配合模式,既支持独立训练,也支持联合推理。

何恩培告诉记者,这样的设计让大模型变得“更聪明”,显著降低了训练算力成本,有效避免了微调训练造成的基座模型能力退化和泛化能力减弱等问题。实时学习和训练模式不但能够有效提升准确率,而且客户数据不用离场,减少用户使用的心理障碍。

值得关注的是,传神是全球大模型领域首家实现数推分离技术路线的人工智能企业,这也是中国人工智能在行业内的重大突破。


为满足客户在大模型应用中对成本、准确性和数据安全的实际需求,传神语联推出了搭载任度双脑大模型的一体机产品,助力客户在真实场景中高效应用大模型。


根原创,摆脱中国AI

对国外的思想跟随和开源的过度依赖


当下,国际环境正在发生深刻变化,地缘政治不仅影响国家、民族,也在影响各行各业,影响团队和个人,这使得对“根原创”的需求愈加紧迫。


在2022年,开源社区GitHub对部分用户账号实施大规模管理举措,该事件引起广泛关注,也警示我们没有任何一个开源是绝对安全的。为保证我们的技术、安全自主可控以及创新不受限,坚持“根原创”势在必行。

2024年政府工作报告首次提出开展“人工智能+”行动,为大模型深度嵌入千行百业作出了指引。

值得关注的是,长期以来,国产人工智能领域存在着对国外的思想跟随和开源依赖。何恩培认为,这会限制国产大模型在新一代技术领域的探索,影响未来的技术突破。因此,必须要有人坚持“根原创”,敢于坚持“根原创”,走出具有中国特色的新一代人工智能道路。

“我们今天能够坚持在‘根原创’这条路上走下去,不仅因为我们的AI‘地基’——也就是算法框架和模型架构,并不比别人差,产品效果也在第一阵营。更重要的是我认为中国人也应该有自己的技术自信,敢于坚持自己的原创路线”何恩培说。

以任度大模型为例,其数推分离双网络架构独具特色,是真正意义上从底层算法框架到上层应用的全技术栈自主研发成果,通过了中国信息通信研究院“0开源依赖”的评测,未使用任何开源代码和框架。

“我们自主研发了机器学习算法框架和模型架构,这使得我们的任何想法和创新都可以不受限制地去实践,让任度大模型具备实时学习客户数据的能力。在国内外,能做到这一点的企业为数不多。”何恩培介绍。


构建自主可控的主权大模型


人工智能发展到今天,已经不仅关乎科技本身。技术的变革深刻改变了人类的生活,同时带来了伦理、道德、隐私等一系列问题。其中,人工智能的“价值对齐”格外引人深思。


大模型的“价值观”来源于它的训练数据和训练时对神经网络层的干预能力,而全球的多元文化背景和价值体系使得价值对齐的标准统一进程难以推进,这也就意味着,如果不发展自己的大模型,而只使用国外的大模型产品,几乎等同于全盘接受对方的价值观。

如何培养有正确价值观的主权大模型?在何恩培看来,在遵守人类共通的主流价值观的同时,要坚定地求同存异,不能丢弃自己的特色。在数字世界,要推广普及符合我国文化意识形态的人工智能。如Meta 公司 Llama 大模型,因互联网中英文语料占比悬殊,对中国文化理解受限,若任何一国全面推广该模型,实际上就是在推广西方文化价值观。

善治才能有“善智”。在训练中,给予大模型更多正向引导,融入符合我国价值观的语料,有助于大模型深入理解和反映中文使用者的文化背景和价值取向,从而在全球化背景下保持中国文化的独特性,更好地服务中国本土用户,满足行业发展需要。


来源 | 光明网、湖北日报、传神语联等综合

出品 | 武汉市科技创新局


【原创内容如需转载,请留言或致电027-82842276】


武汉科技创新
​“武汉科技创新”是武汉市科技创新局官方公众号,将及时发布推介武汉市科技创新工作各类相关政策、工作动态、科技资源和服务咨询,让社会公众关注武汉科技创新工作的发展进步,更好地服务人民群众 、传播科学思想、弘扬创新精神。
 最新文章