【大模型应用落地之规划AI数据中心系列】· 算力基石
随着科技迅速发展,人工智能技术逐渐渗透到各行各业。算力是智能应用的基础和前提条件,算力需求评估与规划建设是模型能够高效地训练和部署的关键。在金融领域,如何针对信贷、风控、客服等不同场景,合理评估算力需求,选择算力资源和规划算力建设至关重要。本议题的主要讨论内容包括:针对金融领域不同应用场景,算力需求评估标准与方法的制定;识别影响算力评估的关键要素和指标,如性能指标、用户规模、适配模型、特殊场景等;针对大模型训练、微调、推理等不同应用阶段或测试验证、部署上线、调整优化等不同建设阶段的算力需求侧重与区别;如何考虑合理的选择和规划算力设备资源建设,以达到资源利用的最大化,如兼容的软件生态、利旧资源的统筹、不同芯片类型的算力协同等。通过本议题的讨论,希望能够为金融行业的智能应用场景建设提供通用的算力需求评估与算力资源规划解决方案。通过合理规划算力资源,不仅可以提高智能应用的效率和效果,也能在一定程度上降低算力选择及建设成本,推进金融业智能化的发展和应用。
议题主持人:金海波 昆仑银行 数据架构师
在科技迅猛发展的当下,人工智能技术已深入各行各业。今天,我们聚焦金融领域,探讨算力这一关键话题。算力是智能应用的基础,在金融的信贷、风控、客服等场景中,合理评估算力需求、选择资源及规划建设至关重要。本次讨论将围绕评估标准与方法制定、关键要素指标识别、不同阶段算力需求差异、资源建设规划等展开,大家的分享中有对算力资源规划的丰富的实践经验,有主流研究论文观点的引用,期望能为金融智能应用提供通用解决方案,推动行业发展。
大模型对算力的消耗主要集中在模型的训练、迭代和推理两个阶段。
大模型的全生命周期包括数据获取、模型训练、模型推理和迭代微调等阶段,对算力的消耗主要集中在模型的训练、迭代和推理两个阶段。在模型训练、迭代微调阶段,算力主要用于支持训练数据处理和海量参数优化等数据密集型操作,对算力基础设施的运行效率、性能稳定性和弹性扩缩容能力有较高要求;在模型推理阶段,算力主要用于执行前向传播计算,对算力位置、交互实时性和准确性有较高要求。根据一些外部发表的文章,模型训练所需的算力规模是模型推理的10倍左右,且其对资源的占用周期也远超后者。
训练阶段目的是让模型从大量数据中学习,以便理解和响应客户查询。训练阶段通常需要最多的算力,处理海量的数据和多次迭代优化模型参数。训练大型AI模型可能需要数千个GPU,并且可能需要数周甚至数月的时间来完成。
迭代微调是针对特定任务或数据集对预训练模型进行小范围调整的过程。通过微调,可以使模型更好地适应特定场景和任务。微调通常需要的算力比训练阶段要低,因为不需要从头开始训练模型,而是在已有的基础上进行调整,可能只需要几十到几百个GPU。
推理是模型部署后的阶段,AI模型使用训练和微调后的知识来理解和响应实时的客户查询,算力需求通常低于训练和微调。AI智能客服在高峰期或大规模并发场景下,需要能够同时处理用户高并发的实时请求。因此,推理阶段的算力需求相对较高,要能快速准确处理用户的请求。例如需要快速地对客户的意图识别、上下文理解,能够分析用户话语中的关键词、语义结构和上下文信息,从而准确判断用户的意图,并利用知识库能力回答和解决客户问题,这些都需要一定的算力支持。
业务运行时间也是影响算力的因素,从业务运行周期看,在业务上线之初,所需算力较少,这个时候的业务可能大多数是内部的测试用户,大量的测试AI客服是否能正确理解和正确回答信息,并发量和需要上下文推理的内容也较少。而到了业务推广或者业务处于盈利状态时候,所需算力较多。另外从每天时间上看,需要的算力也和业务高峰期成正比。一般来说高峰期与营业点的业务的高峰期成正比,大约在上午9点至下午16点之间,这个时间大部分咨询量较大,大约占一天访问量的80%以上,且很多是只能白天办理的业务,例如购买产品的方法或者调整业务的流程。而晚上则相对少很多。这种情况下,算力资源分时复用,借助需求预测和任务调度的方法,在高峰期给重要业务或者重要地区分配更多算力资源,以满足其高算力需求;而在低峰期则将多余的算力资源重新分配给其他业务或地区使用,整体上算力资源使用达到平衡、节约。从规划出发,有几点是需要考虑的:
1.了解当前的需求,包括模型规模:了解模型的参数量、计算复杂度。任务类型:是仅进行推理,还是需要进行微调或重新训练。使用场景:在线服务对延迟和响应时间的要求,任务的分布情况。
2.企业未来的规划:未来的业务量的预估和未来企业是考虑租还是自建大模型,以及发展的规模等。
针对客服场景,根据坐席系统统计最繁忙时段的TPS规划算力资源。
首先考虑部署阶段,针对客服场景,需要确保业务最繁忙阶段的TPS,故通过原有的客服坐席系统统计最繁忙时段的TPS,并以此作为算力计算的依据。另外,针对实际使用的模型大小,进行并发数据估计,通过单个实例的并发能力和业务需求的TPS以及单个实例占用的算力去进行最终的算力估算。微调阶段需要保证测试环境拥有足够的算力进行模型微调以及模型测试,一般保证一路训练一路部署即可。一般不建议对模型进行预训练,故没有积累预训练的算力评估标准。
苟志龙 某银行数据团队 高级工程师
要有合理评估算力的工作方法。
为了合理评估和规划算力资源,提高算力应用效率,可以采用以下评估方法和步骤:
1.算力需求评估标准与方法
分析不同金融场景特点,如信贷、风控、客服。确定评估指标,如性能、用户规模、适配模型。建立评估模型,预测算力需求。
2.关键要素识别
数据规模与复杂度、模型精度与复杂度、实时性要求、业务增长趋势。
3.不同阶段算力需求侧重
训练阶段:计算速度、内存容量。
微调阶段:计算精度、数据传输速度。
推理阶段:计算速度、延迟。
测试验证阶段:系统稳定性、性能测试。
部署上线阶段:资源可扩展性、可靠性。
调整优化阶段:资源利用率、成本降低。
4.算力设备资源建设选择与规划
兼容软件生态,支持主流 AI 框架。
利旧资源统筹,提高利用率。
算力协同,异构计算平台。
弹性扩展,应对业务不确定性。
成本效益分析,优化资源配置。
先以较小算力资源建设试点场景,然后再迭代进行新场景建设。
根据场景建设经验,不进行实际场景的压力测试,很难进行算力需求评估。每个业务场景的服务输出,都不仅仅是一个模型服务,需要进行深入的Prompt、微调等调试,一次接口调用,往往跟大模型的交互不止一次。故基本不能在场景代码开发前,进行合理的性能和算力需求评估,需要场景调试完毕后,通过场景输出接口进行压测。
针对大模型应用场景的算力评估,需要考虑应用场景特性进行。
针对大模型应用场景的算力评估,需要考虑应用场景特性进行,根据场景制定运行性能指标,制定评估流程和方法,按阶段进行算力投入,考虑的内容如下:
1. 应用场景分析:明确金融领域中涉及的不同应用场景,如智能客服、量化交易、风险评估等。
2. 制定性能指标:根据使用系统的用户数量、并发请求量、模型的复杂度、参数数量,制定性能指标,包括计算速度、内存容量、存储容量等,需要考虑高峰时段、突发事件等特殊情况。
3. 制定评估方法:制定评估方法和流程,通过实际运行模型或进行模拟测试,获取算力需求的实际数据。
不同业务、不同场景、不同时间段,都会影响到算力评估。
不同业务、不同场景、不同时间段,都会影响到算力评估。可以预先粗略估计一个平均值,并通过如下方式进行动态协调:
1. 通过诸如k8s等资源协调系统,检测到低流量时进行回收资源,高流量时扩充资源。
2. 将诸如训练等工作的时间段打散,训练主要可以通过checkpoint等方式进行快照保存,那么可以进行半小时级别等时间段的控制,主动释放资源给接下来的高峰推理任务的到来。
在本次关于金融领域算力需求评估与规划建设的讨论中,各位专家达成了一系列重要共识。首先,大家一致认同算力在金融领域智能应用中的基础性和关键作用。大模型的全生命周期各阶段对算力有着不同的需求,尤其是训练、迭代微调和推理阶段,其需求特点各异。训练和迭代微调阶段侧重算力基础设施的运行效率、性能稳定性和弹性扩缩容能力;推理阶段则更关注算力位置、交互实时性和准确性。
欢迎点击文末阅读原文到社区原文下评论交流 觉得本文有用,请转发或点击在看,让更多同行看到
本文首发于《迈向YB数据时代》第9期。扫一扫,识别二维码去社区立即兑换纸质版→
本季度社区的重心任务将是联结所有创新者们的探索成果,基于课题专家用户们绘制的项目落地的基础架构生态图,分不同堆栈进行共识的形成,为大模型规模化应用落地的AI数据中心规划提供决策参考。
欢迎关注社区 “大语言模型”技术主题 ,将会不断更新优质资料、文章。地址:https://www.talkwithtrend.com/Topic/116059
*本公众号所发布内容仅代表作者观点,不代表社区立场;封面图片由版权图库授权使用