大家好,我是小伍哥,又是周末扯淡时间。今天不写代码,聊点工作方法相关的,做风控的人,很奇怪,过一段时间,就会迷茫。迷茫一般有几个原因。- 有新的风险出现,风控方法、流程都是固定的,存粹机械式的干活。
想学习,又不知道从哪里下手,不学习,又焦虑。似乎可以把业务研究的深刻点,但是下手干,又一团乱麻。似乎又可以把算法学深入点,打开书,好像又是老生数据清洗、特征工程、模型训练、结果预测等老路子。可以看看我之前写过的一篇文章,大家都很有共鸣。风控这个行业,入行10年,迷茫十年!怎么去对抗呢?我一直用的方法,就是不断的去深入、发散。我之前写过很多文章,都是深入学习的和思考后的产物。比如决策树策略挖掘,我最早学算法的时候,也就是import、fit、predict。结束了。那深入下去,你会发现有很多可视化的方法、有手动计算的、有提取路径策略的、提取路径,那就需要理解二叉树的回溯,那就去学二叉树...最后就是整个决策树的结构都弄得明明明白白了,不但是把提取策略用到了。之前的xgb等树模型,也是能够非常深入的理解。各种信息熵、信息增益率、信息增益、基尼指数,也是搞得非常明白了。同样,KNN这个算法,也是及其简单的。但是随着深入研究,用出也是非常大的。现在大模型里面的向量数据库,也是用到了很多KNN相关的知识。KNN除了分类,还能做异常检测、做关系网络构建关系,过程中又研究了很多可视化算法的东西,不断的解锁各种用法,那这个KNN就已经不是最早学习的KNN了,是一种思路或者思想了。KNN算法简单?我竟用3万字没写清楚······比如关联规则,也是很简单的算法,我设计了各种挖掘逻辑,以及怎么当成有监督去使用。也能够解决非常多的业务问题逻辑回归、朴素贝叶斯等算法也是,掌握清楚了,可以直接在SQL里面去部署。这些都是简单算法深入研究后的能够带来的增益。还有很多业务问题,也是值得更加深入的。比如关系网络挖掘的。那我们可以通过比例计算介质的违规率。这样最直接。也可以通过匹配,去关联更多的用户。这个用完了。很多人就停止思考和研究了。那我们的社群检测算法,更优雅的解决多度关联问题。所以搞了色群检测算法。然后发现,算法本身,和分类算法不一样,通过特征工程、参数调整啥的能够提高准确率。社群检测提高准确率的方法是,寻找更多,更好的关系,以及构图的合理性。基于前者,我梳理了业务中的15种关系。团伙挖掘中的14大关系类型对于后者,我总结了无脑构图、无需构图、异构构图、相似度构图、连续特征构图等不同的构图方法,用来提高社群的准确性。那到这里,很多基于图的特征,也是很有价值的,于是研究了很多图的属性计算,发现效率很低,算不动,所以就搞了各种各样的阉割版的graphsage、RGCN等,直接去做计算,可以作为特征提取,也可以作为策略去用。关于发散、那渠道就多了。比如看到招聘信息里面的描述,还有我看不懂的名词,我就会去研究。没听过的算法,也会去研究。
发散带来思路的扩展,最后要应用,那又要回到深入篇了。了解了SynchroTrap有用,于是我就去研究论文,然后看案例,没有实现方案,我就天天拿业务数据试验,然后理解,优化,现在我已经有很多种SQL就能高效实现相似度计算的方法了。并且也产生了非常大的作用。由此,又拓展出密集子图系列,研究了LockInfer、Fraudar等,当然这个研究是需要持续的去做的,不是一天两天就能够解决的。Fraudar文章我还没写过,后面会写一系列。当然,在研究Fraudar算法的过程中,我发现有个入侵的场景很适合里面的思想,就设计了一个无监督检测算法,也发现了不少异常用户。写的很碎碎念,很多东西,只可会意,不可言传。很多东西,是现有思想,现有学习,然后才有创造的,而不是简单的用的时候查,或者问问大模型,没有储备的东西,根本不知道问啥....一句话概况:每天起来都走老路,永远到不了新地方!
往期精彩:
复杂网络社群检测-Leiden算法实战
利用决策树分分钟生成上千条策略-代码更新
万物皆网络,万字长文详解社区发现算法Louvain
策略自动化挖掘、团伙挖掘-课程链接
社区发现之标签传播算法(LPA)
风控中的复杂网络-学习路径图
信用卡欺诈孤立森林实战案例分析,最佳参数选择、可视化等
风控策略的自动化生成-利用决策树分分钟生成上千条策略
SynchroTrap-基于松散行为相似度的欺诈账户检测算法
20大风控文本分类算法之6-基于BERT的文本分类实战