“亿”想天开AI|eBay 云原生人工智能推理平台:模型全生命周期管理

文摘   2024-04-12 14:03   上海  

前言

PART.1

随着AI技术的迅速发展,其在企业运营中的重要性日益凸显,尤其是机器学习模型在提升决策质量、优化业务流程以及增强用户体验方面所展现出的巨大潜力。继上一篇文章《“亿”想天开AI|eBay 云原生人工智能推理平台:推理智能,推演“亿”生》深入探讨了模型推理平台的核心功能和架构设计之后,本文将聚焦于模型生命周期管理,一个对于实现模型高效运营至关重要的领域。

“亿”想天开AI系列推文目录:

  • 模型推理平台核心功能和整体架构,及主流框架支持

  • 模型生命周期管理(本篇)

  • 模型端到端服务优化

  • 模型资源优化

  • 模型特征监控

  • 大模型落地实践


模型生命周期简介

PART.2

模型生命周期综合了机器学习模型从数据准备的初始阶段开始,经过模型的构建与训练,到模型的上线、迭代更新,以及最终的下线等全过程。生命周期包含如下关键阶段:


  • 数据准备:模型生命周期的基础阶段,涉及对训练数据的收集、清洗和特征工程,为模型的开发打下坚实的基础。


  • 开发:在此阶段,数据科学家和工程师根据业务需求设计和训练模型,包括选择合适的模型架构和进行模型训练。


  • 部署:开发完成的模型被部署到生产环境中,开始对实际数据进行预测。这一阶段要求模型能够无缝集成到现有业务流程中,并保证其稳定性和可扩展性。


  • 监控:部署后,模型进入持续监控阶段,需要对模型性能进行不断评估和监控,确保预测的准确性,并监控可能影响模型性能的因素。


  • 更新:根据性能监控的结果,模型可能需要基于新数据进行调整或重新训练,以适应环境变化或改善性能。


  • 复用:生命周期的最后阶段,成功的模型或其组件被标准化和封装,以便在其他项目中复用,节约开发时间和资源。


模型生命周期管理是MLOPS领域的普适性概念,但在实际操作中却面临着管理标准缺乏统一、团队间开发效率低下、组件难以复用以及优秀模型发现困难等挑战。这种缺乏协调和标准化的管理方式不仅浪费了宝贵资源,还严重阻碍了业务的增长和技术创新。


模型生命周期管理的目标

PART.3

作为电商和支付行业的先行者,eBay面对的不仅是日益增长的市场竞争,还有来自全球化业务扩展的挑战。模型在搜索、广告、推荐等方面扮演着核心角色,这些模型需要精准地理解和满足来自世界各地不同文化和市场的用户需求。针对这些需求,我们的推理平台通过实施模型生命周期管理(MLM)来优化模型的开发、部署和维护过程,旨在实现以下关键目标,从而加速业务增长与技术创新:

  • 优化模型发现过程:面对全球化的商品和服务,推理平台旨在提供高级搜索、分类和标签化功能,使研究者和开发者能够迅速定位到满足各地特定需求的模型,大幅提升研究效率并加速项目启动。


  • 加速迭代开发:为了顺应业务需求的快速变化,推理平台需要提供强大的模型迭代支持能力,使得开发者能够快速地更新和优化模型,以应对新数据集的融合和技术演进,从而显著提高开发效率并缩短产品上市时间。


  • 实现资源的精细管控:推理平台通过精细化的资源管理策略,确保每个模型获得适当的资源支持,不仅优化了模型在生产环境中的性能,还提高了资源利用率并降低了运营成本。


  • 持续监控与性能优化:通过一套完善的监控工具,推理平台能够实时追踪模型的性能和资源使用情况,及时发现并解决性能下降的问题,确保模型始终处于最佳状态,以满足全球用户的需求。


  • 灵活的模型上线与下线流程:为了满足eBay业务的不断发展需求,推理平台需规划一套灵活的模型上线与下线管理流程。该流程旨在提升操作的灵活性和效率,确保新版本模型可以在实际业务场景中迅速进行验证和性能评估,并实现平滑的滚动更新,以维护业务的连续性和服务品质。


  • 促进模型复用:推理平台致力于提升模型的复用性,目标是优化开发流程,提高开发效率和创新速度。这将减少重复工作,加快新项目的开发,以更迅速地满足业务需求。


通过实现这些目标,推理平台不仅提高了模型开发和部署的效率,还确保了模型在其整个生命周期中的高性能和稳定性,为机器学习项目的顺利进行和成功实现奠定了坚实的基础。这种综合的模型生命周期管理方法为我们在电商和支付行业中持续领先提供了有力支持,同时为全球化业务带来了显著的价值增长。


模型生命周期管理

在推理平台的实践

PART.4

    总体流程    

01


为了解决上述的应用场景需求及平台管控需求,推理平台采取了一系列核心架构原则,旨在构建一个既高效又灵活,同时具备可扩展性的模型推理平台。这些原则包括:


  • 本地化开发与测试支持:推理平台鼓励开发者在本地环境中进行模型的开发和测试,这不仅提高了开发效率,还确保了模型质量的提升。


  • 基于统一元数据和配置的快速迭代:通过统一的元数据和配置管理,推理平台实现模型统一的spec管理,保障了模型版本的快速迭代和有效控制,从而简化了模型的管理过程。


  • 统一API和管理界面:通过提供统一的API和管理界面,推理平台简化了模型生命周期的管理任务,使开发者能够更加高效地工作。


  • 全面测试以保证模型质量:通过提供统一的API和管理界面,推理平台确保模型部署,提供模型能力验证。在模型正式上线之前,推理平台进行全面的多环境的测试,包括性能评估和安全性检查,以确保每个模型都达到了推理平台的高质量标准。


  • 模型存储和索引的优化:推理平台优化了模型的存储和索引机制,并通过记录不同资源间的血缘关系,确保成功上线的模型可以被轻松发现和复用。


基于以上原则,推理平台设计的模型生命周期管理流程如下所示:



-模型管理平台和模型训练平台无缝集成,模型训练完成后即可通过SDK完成模型注册,由模型管理平台托管模型文件和输入输出等模型元数据,并支持标签等信息方便用户查找使用模型。


-模型注册后,平台提供Notebook方便用户对模型进行本地开发测试。Notebook集成平台SDK完成模型文件、元数据和特征数据加载等通用操作,用户专注业务逻辑开发即可。开发过程中用户可以对模型进行持续的修改和调优。


-完成本地开发测试后用户即可将模型部署到测试环境。用户既可以选择预定义的硬件配置以优化资源使用,也可以根据需要自定义硬件选择。此外,平台还支持快速推导或手动导入特征及运行时配置,进一步简化了部署过程。平台确保测试环境与生产环境功能一致,使用户能够在上线前进行全面的测试。


-模型部署后,平台提供Load&Perf(L&P)功能帮助用户获得关键指标反馈。通过指标反馈帮助优化部署参数,一旦所有指标满足预期,推理平台便能够快速调整资源配置并将模型部署上线。


-模型上线后,平台支持小流量测试以确保结果符合预期,然后全面开启。推理平台支持一键扩容,以接收生产流量,并配备全面的监控和报警设置。为了确保模型的平滑更新,平台还提供A/B测试功能,允许用户比较不同版本模型的结果,并实现champion/challenger模型的一键切换。


-对于已上线的模型,推理平台实施了特征快照(Feature Snapshotting),记录在线负载和结果数据,以支持用户离线优化。用户使用这些数据训练出新版本的模型实现模型的迭代更新。


    核心功能    

02


模型的发现

在快节奏的技术环境中,开箱即用的大模型已成为业界标准,这要求我们能够快速发现并重复利用现有的模型和相关资产。基于这一需求,推理平台开发了一套血缘关系管理系统,旨在详细追踪资产的起源、发展及其相互之间的联系。这一系统的核心在于:


数据建模:通常来说,一个完整机器学习流程包括数据预处理、特征工程、模型训练、模型评估,最终再服务于线上进行模型推理,这个流程是推理平台构建血缘关系的核心,同时推理平台仅在(1,N) ↔ (1,N)实体间构建血缘关系,对于1 ↔ 1的实体其血缘关系可以直接推导,因此无需构建,例如模型与模型指标。


高效的数据管理:利用eBay自研的高性能图数据库NuGraph,存储关键的标识信息(ID、状态和时间戳),推理平台实现了数据的精简存储,既保证了系统的效率,又便于进行数据的软删除操作。


高效的更新机制:推理平台通过定期执行的任务从各管理系统中同步元数据,既降低了系统间的依赖,又保障了血缘信息的准确性和及时性。


直观的可视化展示推理平台提供了一套丰富的可视化工具,使得用户能够直观地理解和探索资产之间的血缘关系,极大地提升了用户体验和操作便利性。


结合以上几点,推理平台的血缘管理系统架构如下图:



通过以上设计,用户可以通过UI直观地感受到相关的血缘信息。推理平台的血缘关系管理系统不仅强化了模型和相关资产的发现与复用能力,也显著增强了推理平台对机器学习资产的掌控,为整个机器学习生态系统的高效运作和快速发展提供了有力的支撑。





模型的Traning

用户可通过AI Platform的training平台进行模型训练。鉴于本文的重点在于阐述推理平台的功能,关于训练平台的详细信息将不在此展开。



模型注册

在推理平台中,模型注册过程被设计得既高效又安全,旨在为用户提供一个无缝且可靠的环境,以便他们能够轻松地引入和管理机器学习模型。


-推理平台设计了一套高效的版本控制系统。模型管理平台提供了一套完善的SDK,用户既可以将在模型训练平台中训练的新模型注册到模型管理平台,也可以通过管理界面查找发现合适的模型版本进行复制修改。


-模型管理平台允许模型的不同版本共享大部分模型文件、元数据和特征数据,支持模型文件、元数据复制和修改,仅将少数关键元数据与特定版本关联。这大大简化了新版本的快速生成过程。


-此外,作为在电商和支付领域领先的先行者,我们对模型的安全性有着极高的要求。因此,每个模型在注册前都需要构建为Docker镜像并且这些镜像必须符合我们的严格安全标准。公司每个月都对所有模型镜像进行安全扫描,并对开源包的版本严格控制,以防范潜在的安全漏洞。虽然这些措施确保了模型的高度安全,但它们也可能导致大量的安全漏洞相关问题跟踪任务,增加用户的管理负担。为了减轻用户在安全性维护方面的负担,我们提前构建了一系列由安全团队认证为Golden Image的机器学习和深度学习框架。这些经过认证的镜像可以在多数情况下被重用,大大减少了用户在安全性维护方面的工作量,使他们能够更加专注于模型开发和创新。





模型的验证与优化

在模型成功注册之后,接下来的步骤是进入验证与预部署阶段,这是确保模型准备就绪并能够高效服务于实际业务场景的关键环节。为了实现这一目标,我们制定了一套标准操作流程(SoP)和配套工具,旨在全面覆盖从本地功能测试到预生产环境中的集成测试,以及负载和性能测试。


-在本地开发阶段,推理平台为用户提供了强大的本地调试功能,使他们能够在熟悉的开发环境中对模型进行全面测试。通过管理界面,用户可以利用Notebook和集成的SDK执行模型文件、元数据和特征数据的加载等通用操作,从而专注于业务逻辑的开发。此外,平台还支持用户自定义模型的预处理和后处理流程,以及模型串联功能,为用户在本地开发阶段提供了持续的修改和调优能力。


-本地开发完成后,用户可以利用自助服务将模型部署到测试环境。为了简化部署过程,推理平台提供了预定义的硬件资源配置列表,并支持自动导入必要的特征和通过yaml等方式快速导入运行时配置。用户仅需进行少量自定义属性的修改,便能轻松实现模型在各级测试环境的快速部署。


-为了确保模型在正式上线前的性能达到预期,推理平台设置了专门的预发布环境,供用户进行全面的测试。通过管理界面提供的Load&Perf(L&P)测试功能,用户可以获得关于延迟、资源使用率等关键指标的反馈。基于这些关键指标,用户可以调整GPU、CPU和内存等主要资源配置,以及动态批处理等运行时配置,并据此重新部署模型,优化性能指标,确保模型在实际业务场景中的高效运行。





模型的生产部署


一旦模型在预发布环境中的所有关键性能指标达到预期,平台便利用已验证的资源配置和运行时配置,将模型顺利部署上线。值得注意的是,一旦模型版本上线,便不再允许进行修改,以保证生产环境的稳定性。为了确保新版本模型的平滑过渡,推理平台支持A/B测试和Champion/Challenger模式。在这种模式下,Champion模型作为当前主要处理业务请求的实例,而Challenger模型则作为潜在的候选者,通过异步调用和结果日志记录,为离线模型评估提供数据支持。



-推理平台通过特征快照(Feature Snapshotting)机制,记录在线负载和结果数据,支持已上线模型的离线优化。这些宝贵的数据不仅可以用于模型新版本的训练,还为模型迭代开发闭环提供了完整的数据支撑。这种综合措施大幅加速了模型从开发到部署的整个过程,同时确保了模型迭代的高效性和质量。


通过这些策略,推理平台不仅显著提高了业务对新模型版本的响应速度和创新能力,还确保了模型在生产环境中的稳定运行和持续优化,为企业带来了显著的业务价值增长。



模型的监控

为了确保模型在生产环境中的稳定性并防止模型漂移,推理平台专注于构建针对模型业务性能指标的监控系统。该系统通过以下关键技术和策略,提高模型的可观测性和可靠性:


模型日志(Model Logging):平台提供了一套开箱即用的工具,采用配置或编程方式,实时记录线上推理过程中的模型输入(特征)和输出结果。这些数据被异步写入离线存储系统,便于团队后续的深入分析。


架构优化:为最小化对线上请求性能的影响,推理平台对网关服务层进行了特别优化,并通过side car container实现了logging client代理。此外,离线转存通过内部Kafka集群和Flink Job实现,加入一层logging service进行数据聚合,保证系统的稳定性。


自动化训练集生成:利用收集的日志数据,推理平台能够自动化地生成新的训练集,支持模型的迭代更新和优化。


综合监控面板:设计了包含多个维度的仪表板,展示从整个集群到单个Pod的详细指标,包括流量、延迟、特征分布等,实现对模型性能的全方位监控。


灵活的报警系统:提供了开箱即用的工具,支持用户根据GPU使用率、请求错误率和延迟等指标自定义报警规则,及时发现并处理潜在的问题。



资源的弹性资源部署和管控

借助于在测试环境中完成的负载和性能(L&P)测试,一旦模型上线,推理平台即可根据测试结果(QPS, GPU flavor, GPU utilization, CPU utilization)自动分配资源,并在必要时进行自动扩容缩容,以适应实际工作负载的需求,提高GPU、CPU等资产使用率。




总结

PART.5

本文介绍了eBay机器学习推理平台在模型生命周期管理(MLM)方面的实践,深入探讨了MLM的关键环节,包括模型的注册、测试、部署和监控流程。文章还阐述了推理平台在确保模型管理流程高效、可靠的同时,如何通过血缘关系管理系统来追踪和优化机器学习资产。


在过去一年的时间里,推理平台见证了显著的增长,共计注册了上千个新模型以及数千个模型版本。更为重要的是,通过持续优化模型生命周期管理流程,推理平台成功将用户从模型训练完成到模型成功上线的整个周期平均时间,从原本的周级别显著缩短至天级别。这一改进不仅大幅提升了开发效率,也为用户在快速变化的市场环境中把握先机提供了强有力的支持。


作为推理系列文章的第二篇,我们已经涵盖了模型推理架构实践和模型生命周期管理的关键方面。在接下来的文章中,我们将继续深入探讨服务和资源优化、模型特征监控以及大模型落地等主题,分享推理平台在这些领域的经验和实践,以进一步提升机器学习模型的效能和业务价值。




eBay技术荟
eBay技术荟,与你分享最卓越的技术,最前沿的讯息,最多元的文化。
 最新文章