起薪4万的AI产品经理自述：一个算法模型是怎么训练出来的？

文摘职场 2024-07-23 19:00 北京

这是求职产品经理系列的第279篇文章

上一篇文章我们讲了一个模型构建的前 2 个环节，模型设计和特征工程。原文如下：

起薪4万的AI产品经理自述：一个算法模型是怎么训练出来的？（上）

这篇文章，我们继续来讲模型构建的其他 3 个环节：模型训练、模型验证和模型融合。

模型训练

模型训练是通过不断训练、验证和调优，让模型达到最优的一个过程。

那怎么理解这个模型最优呢？

还是以用户流失预测模型为例。

首先你要搞清楚一个概念：决策边界，你可以把它简单理解为我们每天生活当中的各种决策。比如，当华为 Mate 降价到 5000 元的时候我就打算购买，那这种情况下我的决策边界就是 5000 元，因为大于 5000 元的时候我不会购买，只有小于 5000 元时我会选择购买。

那放到预测用户流失这个案例中，我们模型训练的目标就是，在已知的用户中用分类算法找到一个决策边界，然后再用决策边界把未知新用户快速划分成流失用户或者是非流失用户。

不同算法的决策边界也不一样，比如线性回归和逻辑回归这样的线性算法，它们的决策边界也是线性的，长得像线条或者平面，而对于决策树和随机森林这样的非线性算法，它们的决策边界也是非线性是一条曲线。

因此，决策边界是判断一个算法是线性还是非线性最重要的标准。

上图就是三种算法的决策边界。决策边界的形式无非就是直线和曲线两种，并且这些曲线的复杂度（曲线的平滑程度）和算法训练出来的模型能力息息相关。

一般来说决策边界曲线越陡峭，模型在训练集上的准确率越高，但陡峭的决策边界可能会让模型对未知数据的预测结果不稳定。

这就类似于我们投资股票，低收益低风险，高收益高风险，所以我们一般都会平衡风险和收益，选择出最合适的平衡点。

对于模型训练来说，这个风险和收益的平衡点，就是拟合能力与泛化能力的平衡点。

拟合能力代表模型在已知数据上表现得好坏，泛化能力代表模型在未知数据上表现得好坏。

它们之间的平衡点，就是我们通过不断地训练和验证找到的模型参数的最优解，因此，这个最优解绘制出来的决策边界就具有最好的拟合和泛化能力。这是模型训练中“最优”的意思，也是模型训练的核心目标，我们一定要记住。

具体到我们这个流失用户预测的例子上，模型训练的目的就是找到一个平衡点，让模型绘制出的决策边界，能够最大地区分流失用户和非流失用户，也就是预测流失用户的准确率最高，并且还兼顾了模型的稳定性。

一般情况下，算法工程师会通过交叉验证（Cross Validation）的方式，找到模型参数的最优解。

模型验证

刚才我们说了，模型训练的目标是找到拟合能力和泛化能力的平衡点，让拟合和泛化能力同时达到最优。那这该怎么做呢？

如果算法工程师想让拟合能力足够好，就需要构建一个复杂的模型对训练集进行训练，可越复杂的模型就会越依赖训练集的信息，就很可能让模型在训练集上的效果足够好，在测试集上表现比较差，产生过拟合的情况，最终导致模型泛化能力差。

注：如果大家对于训练集/测试集/过拟合/欠拟合等很多名词听不明白，可以参考下面这篇文章：

真心建议大家冲一冲新兴领域，工资高不内卷【内含99个AI专业名词解释】

这个时候，如果算法工程师想要提高模型的泛化能力，就要降低模型复杂度，减少对现有样本的依赖，但如果过分地减少对训练样本的依赖，最终也可能导致模型出现欠拟合的情况。

因此，算法工程师需要花费大量的时间去寻找这个平衡点，而且很多时候我们认为的最优，未必是真正的最优。这个时候，模型验证就起到了关键性的作用。

模型验证主要是对待验证数据上的表现效果进行验证，一般是通过模型的性能指标和稳定性指标来评估。

首先是模型性能。模型性能可以理解为模型预测的效果，你可以简单理解为“预测结果准不准”，它的评估方式可以分为两大类：分类模型评估和回归模型评估。

分类模型解决的是将一个人或者物体进行分类，例如在风控场景下，区分用户是不是“好人”，或者在图像识别场景下，识别某张图片是不是包含人脸。

对于分类模型的性能评估，我们会用到包括召回率、F1、KS、AUC 这些评估指标。

而回归模型解决的是预测连续值的问题，如预测房产或者股票的价格，所以我们会用到方差和 MSE 这些指标对回归模型评估。

对于产品经理来说，我们除了要知道可以对模型性能进行评估的指标都有什么，还要知道这些指标值到底在什么范围是合理的。

虽然，不同业务的合理值范围不一样，我们要根据自己的业务场景来确定指标预期，但我们至少要知道什么情况是不合理的。

其次是模型的稳定性，你可以简单理解为模型性能（也就是模型的效果）可以持续多久。

我们可以使用 PSI 指标来判断模型的稳定性，如果一个模型的 PSI > 0.2，那它的稳定性就太差了，这就说明算法同学的工作交付不达标。

总的来说，模型的验证除了是算法工程师必须要做的事情之外，也是产品经理要重点关注的。就好像研发同学需要单元测试，测试同学需要冒烟测试，产品经理需要产品验收一样。

这篇文章，我们先熟悉模型验证在整个模型构建中所扮演的角色，之后，我也会单独写一篇文章讲一下模型评估的核心指标都有什么（下一篇文章就发），以及它们的计算逻辑、合理的值都是什么。

模型融合

前面我们讲的 4 个环节都是针对一个模型来说的，但在实际工作中，为了解决很多具体的细节问题，算法工程师经常需要构建多个模型才获得最佳效果。

这个时候，就要涉及多个模型集成的问题了。那模型集成或者说集成学习究竟是怎么一回事儿呢？

我们先来看一个生活中的例子，如果你打算买一辆车，你会直接找一家 4S 店，然后让汽车销售员推销一下，就直接决定购买了吗？大概率不会，你会先去各头部汽车咨询网站看看其他车主的评价，或者咨询一下同事或朋友的意见，甚至会自己整理一堆汽车各维度的专业对比资料，再经过几次讨价还价，才会最终做出购买的决定

模型融合就是采用的这个思路，同时训练多个模型，再通过模型集成的方式把这些模型合并在一起，从而提升模型的准确率。

简单来说，就是用多个模型的组合来改善整体的表现。

模型融合有许多方法，我们知道一些常用的就可以了，比如对于回归模型的融合，最简单的方式是采用算数平均或加权平均的方法来融合；

对于分类模型来说，利用投票的方法来融合最简单，就是把票数最多的模型预测的类别作为结果。另外，还有 Blending 和Stacking，以及 Bagging 和 Boosting 这些比较复杂的模型融合方法。

除了要注意模型融合的方法，我们还要注意算法模型的选择，不同行业选择的算法模型一定不一样。

比如，互联网数据和银行金融机构数据就不一样，因为银行数据大部分都是强相关性的金融性数据，所以它可能会更多考虑机器学习算法，而互联网的数据特征基本都是高维稀疏，会较多考虑深度学习算法。

并且，由于不同行业对于算法模型的风险状况也有不同的考虑，所以对模型的选择也会有不同的限制标准，比如银行、金融行业会监管模型的特征和解释性，因此，会选择可解释性很强的算法模型，如逻辑回归。

除此之外，我们还要考虑算法模型选择的成本。比如说，产品经理可能认为通过 Boosting或 Bagging 的方式集成模型的效果，一定比单一的算法模型效果要好。

但是在实际中，算法工程师常常会为了提成模型 AUC 的一个点，让特征的规模增大很多，导致模型部署上线的成本翻倍，这就非常不划算了。

因此，成本是算法工程师在选择算法模型时会去考虑的事情，也是需要产品经理去理解算法同学工作的地方。

模型部署

一个模型训练完成并通过评估后，算法工程师就要考虑怎么把它部署到线上，并应用到业务场景中。虽然模型部署不属于模型构建中的环节，但它却是 AI 产品上线中必不可少的一环，所以我也要在这里和你讲一下。

一般情况下，因为算法团队和工程团队是分开的两个组织架构，所以算法模型基本也是部署成独立的服务，然后暴露一个 HTTP API 给工程团队进行调用，这样可以解耦相互之间的工作依赖，简单的机器学习模型一般通过 Flask 来实现模型的部署，深度学习模型一般会选 TensorFlow Serving 来实现模型部署。

但是，具体的交互方式也还要看模型应用的业务场景，比如业务需求就是要对 UGC 内容进行分类，如果业务场景是要实时预测用户 UGC 的类别，那我们的分类模型就需要部署成在线的 Web 服务并提供实时响应的 API 接口；如果我们只是需要对一批已有的 UGC 数据进行分类，然后使用分类后的结果，那我们的模型通过离线任务的方式运行，每日定时处理增量的 UGC 数据就可以了。

对于应用层的产品经理，你只需要了解大概流程就可以了，把学习的重点放到如何去评估模型效果上。

转行/求职产品必备

如果想要进入AIGC领域做产品经理，推荐我们的《AIGC产品实战特训营》

面向群体：0经验转行想要求职AIGC产品经理的人

项目优势：

1）小班制，每一期10个人左右。个性化好，1对1背景诊断以及项目方向定制。

2）课程系统性强：课程会深度讲解机器学习、强化学习、深度学习、大模型相关，所以没有算法基础的同学不用担心

3）手把手带着做的项目属于招聘量大、求职成功率高、薪资高的对话类（对话机器人）和图片类（类妙鸭相机）两个项目，这两个项目都是落地项目，不是虚拟项目。

4) 百度资深AI面试官1对1的简历修改和模拟面试服务，无须额外付费。

5）有任何疑问都可以免费在2V1服务专属群提问。

6）如果错过直播，每次直播都有直播录屏可以观看回放。

7）额外福利：免费复训。如果一期课程感觉吸收不好，目前提供免费复训机会。

详细说明：

真心建议大家冲一冲新兴领域，工资高前景好【AIGC篇·第6次迭代更新】

真心建议大家冲一冲新兴领域，工资高前景好【AIGC篇·第7次迭代更新】

往期高赞高阅读文章

起薪4万的AI产品经理，必须掌握的技术模型与3大知识体系

起薪4万，百度AI产品&研发必懂深度学习实现原理框架（上）

起薪4万，百度AI产品&研发必懂深度学习实现原理框架（下）

起薪4万的AI产品经理，必须掌握的算法全景地图

通过一个 AI 产品的落地，掌握产品经理工作全流程

【AI系列】2道AI产品经理面试高频问题及答案

【AI求职系列2】AI产品经理需要懂的技术全景图

【AI求职系列1】AI 产品经理人才结构及求职建议

http://mp.weixin.qq.com/s?__biz=MzA4MDE2MTYyNw==&mid=2247493766&idx=1&sn=32a97b96e5e1fa03757b442a39921532

薛老板AIGC和新能源求职

前百度、京东10年资深产品经理畅销书《产品经理求职面试笔记》作者，全网粉丝20W 助力转行年薪40W+新能源/人工智能/互联网产品已帮助5000+学员入职排名前10一线大厂......

最新文章

张一鸣从创业之初到现在的230句话，让人越想越后怕

真心建议大家冲一冲新兴领域，工资高前景好【AIGC篇】

面试40家，狂拿9个offer

裁员了，很严重，大家做好准备吧！

99个AIGC和大模型专业术语自查表，看到就是赚到！

【全网最全】AIGC产品经理面试高频100题答案解析

上海头部新能源企业汇总

【全网最全】AIGC产品经理面试高频100题答案解析

京东校招1.8万人背后：采销直播间、AI是重点发展方向

京东AIGC产品经理实习上岸面经（已拿offer）

【全网最全】AIGC产品经理面试高频100题答案解析

裸辞半年了，还没找到工作

很严重...建议大家年底极速存钱吧！

OpenAI科学家震惊TED大会：让AI模型思考20秒，提升10万倍性能！

今年的求职行情，比预想中的更严峻

面试40家，狂拿9个offer

手把手教学 | 如何在国内远程赚外国人的钱？

面试40家，狂拿9个offer

万字长文：一文读懂Agent，大模型的下一站（下）

年薪96w！产品经理新赛道，我决定入局！

面试40家，狂拿9个offer

真心建议大家冲一冲新兴领域，工资高前景好【AIGC篇】

爆了！年薪96w！想入局AIGC产品经理的恭喜了！

今年的求职行情，比预想中的更严峻

太难太难了...秋招前上岸淘宝

【全网最全】AIGC产品经理面试高频100题答案解析

AIGC公司，排雷

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

大厂开始“捡漏”35+的人员

国内197个AI大模型，哪个最有前途？

AIGC出海，也许是2025年最大新机会

【全网最全】AIGC产品经理面试高频100题答案解析

取代产品岗，国内又一新兴岗位在崛起！这才是产品经理未来5年最好的就业方向！

33周岁，竟然进了网易

AI 大模型，中美双强争霸格局

【全网最全】AIGC产品经理面试高频100题答案解析

今年的求职行情，比预想中的更严峻

上岸！携程AIGC产品实习有多难？

急招！！腾讯、百度、字节、美团、滴滴、小米等实地实习

急招！！腾讯、字节、阿里、谷歌、微软、华为远程实习汇总

商汤&英语流利说&满帮等6家AIGC产品经理面经分享

欣旺达2025届校园招聘正式启动！

经过5家面试，拿到3个offer！建筑转行新能源

万字长文：一文读懂Agent，大模型的下一站（上）

百度AIGC产品运营实习上岸面经（已入职一周）

【全网最全】AIGC产品经理面试高频100题答案解析

【包入职】平安银行股份有限公司深圳分行-管培生

年薪90w！AI新赛道，产品人的机会来了！

滴滴AIGC产品经理上岸面经（已拿offer）

新能源技术类岗位+英语=高薪王炸工作

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉