基于逻辑回归算法模型搭建思路

文摘   科技   2024-09-06 08:31   广东  

在真实工作场景中,有多种算法依据借贷数据集建立模型,主要使用的算法有逻辑回归、神经网络、决策树、贝叶斯信念网、GBDT算法等,本系列文章旨在为刚入门和对模型感兴趣的同学介绍传统风控模型算法之一——逻辑回归


前方高能!准备发车!


逻辑回归算法



逻辑回归(LogisticRegression)又称为逻辑回归分析,经常被用于分类,是常用的预测算法之一。通过学习历史数据的特性预测新数据的表现结果。


例如,可以将放贷概率设定为因变量,将用户的自身属性以及行为特征属性,例如家庭人员数量、婚姻状况、年龄、同一页面停留时间等设定为自变量,根据这些特征属性预测放贷的概率。


统计学家开发了逻辑函数,也被称为sigmoid函数。



用于描述生态中人口增长的特性,迅速上升并最大限度地发挥环境的承载能力。这是一个S形曲线,它可以取任何实数值并将其映射到0到1之间的值,但不会完全处于这些极限值。逻辑回归可以认为是因变量可以进行二分类时的回归分析。


像所有回归分析一样,逻辑回归是预测分析。Logistic回归用于描述数据并解释一个定性变量(取值0或1)与一个或多个名词、序数、区间或比率相关变量之间的关系。它可以应用于借贷事件的发生某些事件的概率,例如美国FICO的信用评分卡模型就是基于逻辑回归建立的。


线性回归方程




将线性回归方程代入上述Sigmoid函数,即得到逻辑回归方程:



当x=0时,Sigmoid函数值为0.5;当x→∞时,Sigmoid函数值将逼近1;而当x→-∞,Sigmoid函数值将逼近0。Sigmoid函数可以将输出映射到(0,1)之间,表明某组数据属于某一类别的概率,比如设定阈值为0.5,则当h(x)<0.5  与 h(x)>0.5的时候,函数表示的特征数两类。


逻辑回归算法计算流程



针对某一任务数据集,找一个合适的预测函数,一般表示为h函数,即分类函数,用来预测输入数据的判断结果;


其次构造一个损失函数,该函数表示预测的输出与训练数据类别之间的偏差,可以是二者之间的差或者是其他形式,综合考虑所有训练数据的损失,将损失函数求和或求平均,记为J函数,表示所有训练数据预测值与实际类别的偏差。


当J函数的值越小表示预测函数越准确,所以需要采用某种方法找到J函数的最小值。对于参数的估计,往往采用梯度下降的优化方式:



对于任意任务数据集,通过选择合适的损失函数,结合梯度下降、极大似然估计获得对模型特征系数的估计也就是完成整个算法计算过程,获得目标算法的训练过程。


Sigmoid函数的上述性质非常适合二分类模型,同时对于变量中的每个特征,都能通过其系数给出合理的解释。


基于逻辑回归算法构建贷前反欺诈模型示例




1.数据收集及处理


基于逻辑回归算法的个人贷款贷前反欺诈模型是基于客户各种维度数据进行开发的,常见的数据维度包括年龄、生日、性别、文化程度、职业、行业、收入、电话、邮箱、身份证信息、婚姻状况、住址、公司地址、房屋类型、家庭人均年收入等等。获得这些数据的途径包括申请信息填写、第三方数据公司合作等方式。


但是原始数据中由于客户填写的内容未必是真正信息、收集信息过程中存在不确定性事件,往往会存在缺失值、重复值、异常值等,这就需要对不同维度、有可能存在交叉冗余的原始数据信息进行进行统计分析、关联性分析等处理,然后获得能够用于建模的数据。


2.特征工程


原始数据经过预处理之后,需要对其进行特征工程,即结合业务知识、数据方法构建能够确认模型的特征集。特征工程中,数据质量和特征维度直接决定了机器学习模型性能的上限,而模型的构建和具体算法的选择则是趋近上限的方法。


3.特征选择


通过特征工程能够获得很多特征,包括原始特征、衍生特征,但是考虑到模型的复杂度以及特征对预测结果的重要性,我们需要对已有特征进行特征选择,获得入模特征


4.模型构建


利用特征选择得到的特征作为入模特征,结合逻辑回归模型进行模型训练,选择合适的损失函数训练固定次数或待模型精度达到要求,完成模型构建。但是根据实际工程经验,模型构建的过程往往是多次迭代,逐步优化的过程,不是一次训练就直接获得最终模型。


5.模型评估


考虑到本示例是用于个人消费贷款贷前反欺诈环节,属于分类模型,结合实际的业务经验,对于本领域的模型从稳定性、区分性、排序性三个方面进行评估。常用的指标包括KS值、AUC值、GINI系数等指标。若训练好的模型在各评估维度或某几个特定维度满足业务要求,即可将其作为最终模型。反之,则需要重复以上几个步骤进行模型迭代优化。


看到这里,如果你想了解更多风控模型的类型、算法以及作用,与模型的搭建方法以及应用场景,加强风控建模业务模型技巧经验、提升建模能力,从0-1全面学习风控模型,推荐学习「量化风控模型机会创造营3.0」

(想对模型岗位进一步理解,戳小金老师微信咨询xj_fal)


由FAL与全体授课老师用心研发、开发的模型机会创造营,不仅教授评分模型标准开发流程还会详解特征工程。另外,课程一半的时间老师与学生进行案例代码实操教学,学到并能会运用才是学习的关键!⬇️


课程特色


1、特征工程最全解析(分析+辅助模型)


特征的构建决定了建模的成败,好的特征会让我们在建模的路上事半功倍。可以说建模的流程中大部分的时间都在做特征的构建和筛选。



通过学习单特征构建、多特征筛选、四类主流特征构造方法以及各种特征辅助模型构建特征,全面解析特征工程的“套路”,学会自己进行特征评估和特征构建。


2、二分类模型主流算法全流程精讲(带全流程案例实操)


没有代码基础?本课程包含纯干货的快速SQL、Python入门讲解,帮助您在学习途中扫清工具的障碍。


没有算法基础?本课程将带你从最简单的线性回归入手,逐一串讲各类风控模型常用算法。包括但不限于风控模型中最常用的逻辑回归、到更高级的GBDT、XGBoost、LBGM等。并且结合案例的实操,帮您从理论和应用两个层面完成学习的闭环。


3、全场景评分卡模型体系应用


本课程中囊括了全场景的风控评分卡模型种类,包括:


  • 申请类(贷前)评分卡与各种A卡子模型

  • 行为类(贷中)评分卡与各种B卡子模型

  • 催收类(贷后)评分卡与各种C卡子模型

  • 组合评分卡模型


结合实际的应用场景,无论您将来要进入哪个岗位,都有对应的内容帮助你更好的进行模型应用。


4、学一用三:细化场景建模案例实操(贷中支用)


通过对贷中支用模型开发场景的案例实操讲解,能够进一步细化对于信贷评分模型的理解,从而举一反三,彻底掌握评分卡建模,从样本设计到模型开发模型验证的全流程。从此无论面对何种场景化的模型变种,都可以用相同的“套路”解决。


添加小金老师微信免费咨询
课程难度、职业规划
量化风控模型机会实战营3.0


没有模型体系知识

不论是面试还是工作中,模型体系的建立和掌握是至关重要的。尤其是在求职中,面试官对求职者有没有体系性的模型理解是极为看重,有体系性的理解代表着将来他能有无限的可能性。

通过全面课程学习,可以掌握不同场景下建模全流程开发与应用,包括分析思路与代码能力。具体课程安排如下:

△ 上下滑动查看更多


如果你想系统学习,入行模型岗
扫码添加课程顾问,解锁最适合你的学习方式
↓↓↓扫码↓↓↓

添加小金老师微信免费咨询
课程难度、职业规划
量化风控模型机会实战营3.0


没有项目实操经验

对于社招,最大的门槛不是学历、背景,而是有没有相关项目经验。这简直是所有转岗人士的死穴。FAL怎么为大家“解穴”呢?


1. 教你最实用的“经验”


  • 建模特征处理、构建与选择的经验;

  • 各类子模型的经验,应对各种业务细分场景下如何开发模型的问题;

  • 参数优化的经验,让你快准狠的调整核心参数,模型一步到位,让面试官都感觉到你“经验十足“。



2. 手把手带你过项目,走代码,项目实操就有了

通过FAL自建“鲸抖”大数据实操平台,配置统一实验环境,你可以上机实操项目,让你完整体验到模型开发监控的全流程,再也不怕面试官问细节。


更多这门课程广受学员好评,帮助了很多小伙伴的职业发展更清晰明朗。以下是专属课程学习群记录与学员反馈。



△ 上下滑动查看更多

经过课程优化调整后,新增安排了案例互动代码教学以及企业级数据模型结业作业项目互动实练。

△ 上下滑动查看更多

如果你想快速了解模型岗的行业现况
可以添加我们的顾问老师,解锁入行捷径
↓↓↓扫码↓↓↓

添加小金老师微信免费咨询
课程难度、职业规划
量化风控模型机会实战营3.0

金科应用研院
Make Fintech Easier And Smarter
 最新文章