一、现在存在的问题
重复造轮子:特征工程、模型训练、模型在线预测都是各自研发,从零做起,算法的迭代效率低,用户代码基于单机脚本实现,处理环节长、耦合高,难以修改和扩展,长久以来可读性降低.
特征口径混乱:各个业务方重复开发特征,相同特征的统计口径也不一致,导致算法之间难以协同工作。
数据分散:同一业务下多个场景、同一场景下多个模型,在数据处理、模型训练等技术流程上类似,场景重复步骤和数据结果难以重复利用。
效率低下:算法人员和业务人员对分布式机器学习的开发存在技术壁垒,导致数据量和模型复杂度受单机资源限制。
进入门槛高:机器学习和深度学习的算法学习和搭建的门槛很高;调参和对比算法效果费时费力。
维护成本高:机器环境配置不一,框架日新月异,维护各种算法框架的繁琐性高,管理运维成本高,场景不同导致存在周期训练、定时预估、实时预估等需求,对业务人员和算法人员的代码要求高,维护成本高。
二、机器学习平台和AI中台的关系
三、什么是机器学习平台
数据接入:支持多种类型数据的接入,包括音频、文本、图片、视频。
数据准备:包括数据清洗和数据探索,在数据清洗环节,机器学习平台一般具备数据融合、数据缺失处理、数据分类、打标签、数据异常处理、数据平滑等功能,在数据探索环节,机器学习平台具备单变量统计、多变量统计、聚类分析、相似度度量、密度检验等功能。
特征工程:支持特征构建、特征选择、特征降维、特征编码等特征工程必备流程,同时提供可视化的特征重要性评估功能,使用户可以快速发现模型中存在的问题。
模型训练:支持Notebook;模型建立后,平台提供可视化超参调整、超参搜索等功能,提高模型训练的效率。
模型部署:通过API接口,一键实现模型从开发环境到生产环境的部署,实现模型快速上线。
模型管理:模型部署到生产环境后仍需要进行监控和管理,以保证模型的准确率和及时更新,模型管理能够将生产环境中的模型与基线或之前的模型进行对比,确定模型效果。此外,很多平台还提供指标跟踪工具,提高模型效果的评估效率。
数据管理
数据标注
算法管理
模型管理
底层资源管理
租户管理
四、如何评估机器学习平台
五、行业案例
六、写在结尾的话
七、名词解释
点击“阅读原文”
查看更多干货