1、分析目的确定
策略挖掘前,需要根据当前的场景,确定清楚分析目的。我们进行风控策略挖掘,有很多不同的目的,准入策略、聚集性分析、风险感知分析、策略收紧或者放款、风险归因等等。
在策略挖掘前,需要对分析的目的确定。不然毫无目的的分析可能完全背离初衷。信贷里面的:审批准入策略、额度策略、风险定价策略、额度调整策略、用信策略,反欺诈策略等,外部数据评估等, 也是涉及到策略挖掘,目的都不一样。内容安全策略、行为策略等,也是有不同的分析目的。
2、案例模式分析
做风控,对于案例的分析和查看,是非常重要的,很多人,分析的时候,拿着数据就开始,往往很难创新或者没什么灵感,如果看大量的案例,我们就能发现作案的一些隐含的、抽象的、共性等原有数据集里面没有的模式。并提取新的特征,下面是一个壮阳的商家的部分信息。
3、业务数据盘点
通过观察和分析大量的案例,我们就可以对案例里面的数据进行盘点,最大限度的获取风险案例里面的信息。并结合我们之前的挖掘思路,去寻找更多的特征。比如这个案例,我们表面看到的都是一些信息内容。
直接信息:商品标题、店铺标题、商品主图、商家地址、商家属性(粉丝,搜藏、评分、保证金等)、评论文本、评论图片等。
注册信息:注册IP,常用IP,常用城市,注册设备ID,是否模拟器、注册时长等等。
行为信息:登录次数、登录时间段、成交金额、成交用户数等等
尽量多的去拿数据,然后又翻过去看案例,挖掘作案模型并转换成特征。
4、多个模态统一
在复杂场景里面,数据都是以多模态的形式存在的,我们需要转换成可分析元素,比如视频、图片、文本、关系、数字等等,非常丰富,我们要进行策略挖掘,就需要对数据模态进行转换,比如如肉眼和感觉是存在共性特征,但是数据上没法分析,比如相似的图片,相似的文本等等。所以我们必须要进行必要的模态转换,转换成可分析的元素。
比如壮阳的风险里面,我们看了大量的数据,很多产品,都包含如下红框中的猛男形象商标图形,这种情况,我们只要做个小目标检测,输出一个猛男的标签,就可以统计和挖掘分析了。
对于多模态内容,可以提取元素的的一些方向如下:
内容理解:图片中的人物、服装,场景,汽车、阳光、沙滩、酒店等等
目标检测:老虎、藏羚羊、信号灯、爆炸、验证背景画面等
人脸识别:faceID
视频理解:精彩片段、爆炸、低胸、翘臀等
声音片段:音转文ASR、音乐片段ID、呻吟声等
行为序列:注册、验证、召回密码、修改头像、修改昵称等
APP列表:微信,信贷,约会,黑灰产等
... ...
实体识别:地点、组织机构、人名、手机品牌名称等
店铺标题
原文:男士一粒挺。
分词:shop_男士,shop_一粒,shop_挺
商品标题
原文:速效助硬勃美国持久性不射男一粒壮延增大粗延迟快肾性保健速效大
分词:title_速效,title_助硬,title_勃,title_美国,title_持久性,title_不射,title_男,title_一粒,title_壮,title_延,title_增大,title_粗,title_延迟,title_快,title_肾,title_性保健,title_速效,title_大
商品主图
OCR原文:一粒管三晚挑战的分钟3秒超硬增粗增硬送买二送一15粒速效型烈焰战神
OCR关键词:ocr_一粒,ocr_3秒,ocr_超硬,ocr_增粗,ocr_增硬,ocr_战神
目标检测:_label_猛男()
商家地址
地址原文:长沙市雨花区跳马镇金屏社区石燕湖59-7号-H44
标准化:长沙市,雨花区,跳马镇金屏社区,长沙市雨花区跳马镇金屏社区石燕湖
商家属性:法定代表_彭小翠,3星级
数字特征:43粉丝,评分4.2,商品数2,保证金500
评论区特征:
评论关键词:com_硬梆梆,com_耐力,com_持久度
评论区模板检测:美女人脸,丝袜,大腿
评论内容理解:一位年轻美女坐在酒店床上。她穿着一条黑色蕾丝边吊带裙,摆着姿势。
注意:文本分词、地址标准化后最好加个前缀,因为两个相通的词在不同的位置,含义和作用是不一样的,对策略的影响也是不同的。
5、训练数据准备
有了上面的步骤,我们对数据进行如下的处理,基本就能够得到了可以进行策略挖掘的数据形态了。回到了我们之前的方法,如果是序列模型,我们准备成序列的形式,如果是数模型,我们转换成数字的形式,然后进行挖掘即可。
6、策略挖掘
到这一步了,直接根据关联规则或者决策树,进行挖掘即可得出对应的策略明细,大概的结果如下: