第一部分:引言篇
第1章、风控策略到底需要什么技能?
1)工具要求
2)行业经验
3)学历专业
4)性格素质
5)技能要求
第2章、常规的风控策略挖掘方法
1)基于法律法规
2)基于业务经验
第3章、本课程的核心目标
1)总体目标
2)单特征风控策略自动挖掘
3)多特征风控策略自动挖掘
4)决策树风控策略自动化挖掘
5)随机森林风控策略自动挖掘
6)关联规则风控策略自动挖掘
7)复杂风控策略自动挖掘
第二部分:理论篇
第1章、连续特征分箱
1、数据分箱概述
1)分箱的步骤
2)分箱的本质
3)分箱的优点
4)分箱的缺点
5)常用分箱方法
2、等宽分箱
1)等宽分箱的定义
2)pd.cut分箱函数介绍
3)pd.cut分箱代码示例
4)toad分箱函数介绍
5)toad分箱代码示例
3、等频分箱
1)等频分箱的定义
2)pd.qcut分箱函数介绍
3)pd.qcut分箱代码示例
4)toad分箱函数介绍
5)toad分箱代码示例
4、聚类分箱
1)聚类分箱的定义
2)kmeans分箱函数介绍
3)kmeans分箱代码示例
4)toad分箱函数介绍
5)toad分箱代码示例
5、决策树分箱
1)决策树分箱的定义
2)决策树分箱的优缺点
3)DecisionTree分箱函数介绍
4)DecisionTree分箱代码示例
5)toad分箱函数介绍
6)toad分箱代码示例
6、卡方分箱
1)卡方分布概述
2)卡方分箱的定义
3)自定义分箱函数构造
4)自定义函数代码示例
5)toad分箱函数介绍
6)toad分箱代码示例
第2章、离散特征编码
1、标签编码(Label Encoder)
1)标签编码的定义
2)标签编码的优缺点
3)Sklearn实现标签编码
2、序列编码(Ordinal Encoder)
1)序列编码的定义
2)序列编码的优缺点
3)Pandas实现序列编码
4)Category实现序列编码
3、独热编码(Onehot Encoder)
1)独热编码的定义
2)独热编码的优缺点
3)Pandas实现独热编码
4)Category实现独热编码
4、计数编码(Count Encoder)
1)计数编码的定义
2)计数编码的优缺点
3)Pandas实现计数编码
4)Category实现计数编码
5、WOE编码(Weight of Evidence)
1)WOE编码的定义
2)WOE编码的优缺点
3)Category实现WOE编码
6、目标编码(Target Encoder)
1)目标编码的定义
2)目标编码得优缺点
3)Sklearn实现目标编码
4)Category实现目标编码
第3章、数据探索和特征选择
1、数据集整体探索
1)使用toad探索公积金数据
2)使用 klib 探索公积金数据
3)使用toad探索拍拍贷数据
4)使用 klib 探索拍拍贷数据
2、WOE 和 IV值
1)WOE的定义
2)IV 值的定义
3)WOE和IV值计算过程
4)WOE和IV值代码实现
3、特征重要性计算
1)基于IV值的重要性计算
2)基于树模型的重要性计算
4、单特征可视化
1)plt特征可视化-连续特征
2)plt特征可视化-类别特征
3)toad特征可视化-所有特征
第4章、决策树算法详解
1、决策树算法概述
1)决策树发展简史
2)决策树的构成
3)决策树学习的误区
2、决策树的生成过程
1)分类的直觉理解
2)决策树的生成过程
3、ID3算法介绍
1)ID算法的分裂标准(信息增益)
2)ID3对连续特征的处理
3)ID3算法的树结构
4)ID3算法的不足
4、C4.5算法介绍
1)C4.5的分裂标准(信息增益率)
2)C4.5对连续特征的处理
3)C4.5算法的树结构
4)C4.5对缺失值的处理
5)C4.5算法的剪枝策略
6)C4.5算法的不足
5、CART算法介绍
1)CART分类树的分裂标准(基尼指数)
2)CART回归树的分裂标准(平方误差)
3)CART算法的树结构
4)CART算法对连续特征处理
5)CART算法对离散型特征处理
6)CART树的剪枝策略
7)CART算法的不足
6、三个决策树算法对比
7、决策树的剪枝策略
1)预剪枝(pre-pruning)
2)后剪枝(post-pruning)
8、sklearn中的决策树
1)基础应用
2)算法参数
3)算法模板
4)决策树的优缺点
9、理解决策树底层设计
1)决策树的结构探索
2)二叉树的结构组成
3)理解决策树的含义
第5章、随机森林算法详解
1、集成学习概述
2、理解随机森林
1)随机性的引入
2)Bootstrap抽样
3)袋外数据OOB
4)模型结果输出
5)影响效果的因素
3、算法应用
1)基本用法
2)算法参数
3)算法示例
4)参数测试
5)特征重要性的计算方法
6)特征重要性提取
4、随机森林可视化
1)模型训练
2)可视化展示
3)树结果解释
4)基于dtreeviz库可视化
5)树结果解释
5、算法优缺点
第6章、关联规则算法详解
1、关联规则算法概述
1)购物篮分析
2)关联规则概念
2、关联规则常用场景
1)超市购物分析
2)打车路线推荐
3)股票涨跌预测
4)个性化推荐
5)社交关系分析
6)风险策略挖掘
3、关联规则的核心概念
1)支持度 (Support)
2)置信度 (Confidence)
3)提升度 (Lift)
4)频繁项集(Frequent Itemset)
4、常用关联算法
5、Apriori算法详解
1) 算法原理
2)算法流程
3)算法应用
4)算法优缺点
6、FPGrowth算法详解
1)算法原理
2)算法流程
3)算法的优缺点
第三部分:方法篇
数据集介绍
1、数据背景
2、字段含义
方法1:单特征风控策略挖掘
1、原始数据预处理
1)数据读取
2)特征工程
3)确定特征类型
2、构建策略挖掘函数
1)策略结果字段
2)单特征风险率计算
3)策略挖掘函数设计
4)单特征拓展到批量特征
5)代码存储到离线模块
3、基于自定义分箱的策略挖掘
1)类别特征-直接统计挖掘
2)连续特征-等宽分箱挖掘
3)连续特征-等频分箱挖掘
4)连续特征-聚类分箱挖掘
5)连续特征-决策树分箱挖掘
6)连续特征-卡方分箱挖掘
7)连续+类别-混合策略挖掘
8)保存策略结果
5、基于toad分箱的策略挖掘
1)类别特征-直接统计挖掘
2)连续特征-等宽分箱挖掘
3)连续特征-等频分箱挖掘
4)连续特征-聚类分箱挖掘
5)连续特征-决策树分箱挖掘
6)连续特征-卡方分箱挖掘
7)连续+类别-混合策略挖掘
8)保存策略结果
6、单特征策略完整版代码
1)基于自定义函数
2)基于toad的函数
7、有效策略分析
方法2:多特征风控策略挖掘
1、原始数据预处理
1)数据读取
2)特征工程
3)确定特征类型
2、策略组合方法设计
1)基于2 个特征组合
2)基于3 个特征组合
3)基于N个特征组合
3、构建策略挖掘函数
1)特征的风险率计算
2)策略挖掘函数设计
3)拓展到批量特征
4、基于自定义分箱的策略挖掘
1)类别特征-直接挖掘
2)连续特征-等宽分箱组合
3)连续特征-等频分箱组合
4)连续特征-聚类分箱组合
5)连续特征-决策树分箱组合
6)连续特征-卡方分箱组合
7)分类+连续-混合特征组合
5、基于toad分箱的风控策略挖掘
1)类别特征-直接统计挖掘
2)连续特征-等宽分箱
3)连续特征-等频分箱
4)连续特征-聚类分箱分箱
5)连续特征-决策树分箱
6)连续特征-卡方分箱
7)连续+类别-混合策略挖掘
6、多特征策略的完整版代码
1)基于自定义分箱
2)基于toad分箱
7、策略结果筛选
方法3:决策树风控策略挖掘
1、原始数据预处理
1)数据读取
2)特征工程
3)特征类型
2、类别特征数字化
1)OneHot编码特征
2)Count编码特征
3)合并所有特征
3、构建决策树模型
1)缺失值填充
2)训练数据准备
3)决策树模型训练
4)特征重要性提取
3、决策树底层原理探索
1)决策树的结构
2)二叉树的结构
4、决策树策略挖掘
1)二叉树的路径遍历
2)策略提取函数设计
3)策略函数测试
4)批量风控策略提取
5)保存策略结果
5、基于graphviz的可视化
1)函数的基本用法
2)直接保存可视化
3)换颜色直接展示
6、基于dtreeviz可视化
1)函数的基本用法
2)直接在窗口展示
3)在浏览器中展示
4)直接保存到磁盘
7、决策树策略完整版代码
8、决策树策略分析
方法4:随机森林风控策略挖掘
1、 原始数据预处理
1)数据读取
2)特征工程
3)特征类型确定
2、类别特征数字化
1)OneHot编码特征
2)Count编码特征
3)合并所有特征
3、构建随机森林模型
1)缺失值填充
2)训练数据准备
3)随机森林模型训练
4)特征重要性提取
4、模型结构探索
1)森林整体存储
2)决策树的结构探索
5、随机森林策略挖掘
1)单棵决策树提取
2)封装成森林提取函数
3)批量决策树策略提取
4)森林树结构测试
5)森林策略挖掘
6)保存策略结果
6、基于graphviz可视化
1)函数的基本用法
1)单棵树可视化
2)换颜色直接展示
3)森林的批量保存
7、基于dtreeviz可视化
1)函数的基本用法
2)直接在窗口展示
3)在浏览器中展示
4)直接保存到本地磁盘
8、随机森林策略完整版代码
9、有效策略分析
方法5:关联规则风控策略挖掘
1、算法基础介绍
2、原始数据预处理
1)数据读取
2)特征工程
3)特征类型确定
3、数据格式准备
1)连续数据分箱
2)风险标签转换
3)列表格式处理
4、策略挖掘过程
1)频繁项集挖掘
2)关联规则提取
3)风险策略筛选
4)策略格式整理
5、关联规则完整版代码
6、无监督策略挖掘
方法6:复杂风控策略挖掘(待更新)
1、文本策略挖掘
2、序列数据挖掘
3、多模态策略挖掘
第四部分:案例篇
第1章、数据详情介绍
1、数据概况
1)样本统计
2)特征表数据(226个特征)
3)预测变量
4)数据获取
2、 字段介绍
1)Master 表详情
2)Log_Info表详情
3)Userupdate_Info表
第2章、原始数据预处理
1、 数据读取
2、数据探索
3、缺失值删除
4、缺失值填充
5、特征工程
1)修改信息表特征
2)登录信息表特征
6、特征类别确定
第3章、风控策略挖掘函数准备
1、策略挖掘函数构建
2、单特征函数测试
3、多特征函数测试
案例1:基于单特征的风控策略挖掘
1、类别特征-直接挖掘
2、连续特征-等宽分箱
3、连续特征-等频分箱
4、连续特征-聚类分箱
5、连续特征-决策树分箱
6、连续特征-卡方分箱
7、融合特征-基于 toad 挖掘
8、特征可视化
案例2:基于多特征的风控策略挖掘
1、 策略挖掘-类别特征组合
1) 特征组合-2 个特征
2)策略挖掘-2 个特征
3)策略挖掘-3 个特征组合
2、 策略挖掘-分箱特征组合
案例3:基于决策树的风控策略挖掘
1、 数据读取
2、数据预处理
1) 数据探索
2)异常特征删除
3) 缺失值填充
3、特征工程
1)账户更新数据表特征
2)登录信息表特征
3)最终训练集数据匹配
4、 特征类型的确定
1)类型的确定
2)类别特征转换
5、决策树模型
1)模型训练
2)模型可视化
6、策略提取
7、特征采样
案例4:基于随机森林的风控策略挖掘
1、数据读取
2、数据预处理
1)数据探索
2)异常特征删除
3)缺失值填充
3、特征工程
1)账户更新数据表特征
2)登录信息表特征
3)最终训练集数据匹配
4、 特征类型的确定
1)类型的确定
2)类别特征转换
5、 模型部分
1)模型训练
2)特征重要性
6、策略提取
案例5:基于关联规则策略挖掘
1、数据读取
2、 数据格式化处理
1)数据离散化
2)格式整理
3、策略挖掘
1)频繁项集挖掘
2)策略筛选
3)格式整理
案例6:基于复杂方法的策略挖掘
1、文本策略挖掘
2、序列数据挖掘
3、多模态策略挖掘
往期精彩:
SynchroTrap-基于松散行为相似度的欺诈账户检测算法