一个特征工程和风险感知的思考

文摘   2024-05-30 08:25   浙江  

很多年前,刚开始做大数据比赛的时候,接触一类非常常见的特征工程方法:计数特征(Count Encoder),也就是对每个类别特征进行计数统计,对于给定的分类特征,按照每个类别分组,统计组计数,将每个类别都映射到该类别的样本数,像下面这个样子的。比如城市类的特征,直接统计出现的次数,这个特征看起来和我们的目标变量没啥关系。

当时一直不明白这个特征的意义是啥,感觉就是一个统计手段而已,随着这几年的业务经验的积累和思考,发现这个特征其实大有深意,特别是在风险感知场景。我们假设在注册场景去识别或者感知异常用户。

第 1 种类型的特征

就拿省份这个特征来说,我们进行计数编码。如果按一定周期选择样本,并进行特征工程的计算,那这个数字的大小,特征的含义可能代表的是城市等级或者经济实力。某些业务下沉市场多,某些业务北上广多。数量代表等级。如果特征按每天统计计算,某个省份每天的用户的注册数量,基本上稳定的,那从不同的天去统计,那这个特征的含义相当于做一个数据异常监控了,比如同是杭州这个城市,昨天的计数是 50,今天新来的是 500,那就是异常了。当然这种类型的特征还很多,比如商品的类目、用户的工作单位经济类型等等。这种类型的计数特征,还是比较容易被大盘稀释,并不是有很明显的应用,我们接着往下看。

第 2 种类型的特征

假如我们的这个类别特征是强风控相关的,注册ip,注册设备 ID、支付宝账号等等,如下

这个时候,我们的特征含义就非常明显了,代表的用户的聚集性,做风控大家都知道,大部分时候,聚集性代表异常。也就是说,如果是正常用户。那我们的这个统计特征,基本上就是 1,如果大于 1,那就存在批量注册的风险,并且值越大,风险就越大。到这里的话,我们就可以设置对应的策略了。并且很多人都会做类似的策略。如果思维这么转换了,我们就需要找更多的类似的特征,去做计数特征。特别是在异常检测领域,去刻意构造这样的特征,能达到更好的效果。

顺着这个理解,我们可以设计的特征有:手机号开头 3 位计数、邮箱后缀统计、注册 IP、下单 IP、注册设备等等。

第 3 种类型的特征 

更加抽象的统计特征,可以做异常检测,我们继续深入探讨,上面提到的都是一些具象的,稳定的介质,但是对抗强的场景,这些都规避了。

平时有一种感觉,隐约的感觉到,看着就像坏人,但是特征似乎有不大好设计。

  • 城市归属地:

    对 IP 进行归属地转换,再对城市做计数特征

  • 昵称特征:

    • 简单的剔除昵称中的英文和数字,然后做计数特征。

    • 对昵称进行聚类,聚类 ID 维度统计特征

  • 地址特征:

    • 简单的剔除地址中的英文和数字,然后做计数特征

    • 对昵称进行聚类,聚类 ID 维度统计特征

  • 签名特征:

    • 对签名进行聚类,聚类 ID 维度统计特征

  • 头像特征:

    • 对图片进行聚类,聚类 ID 维度统计特征

    • 对图片转换成 MD5,基于MD5 做统计特征

  • 时间特征:

    • 每天时间进行 5 分钟切片,对切片进行计数特征(这个比较抽象,反应的是高频注册)

  • ......

类似的特征可以设计非常多,并且在实战中,也很有意义,特别是风险感知领域。

有了这种特征设计,我们就直接可以做成异常检测模型了。对多个特征求和,和比较大的,就是非常异常的了。头像用了批量的、昵称用了相似的、签名用了模板,注册地址聚集、注册时间集中。大家想想,平时很多场景,是不是也就是这些风险?

第 4 种类型特征

当然,再进一步,我们用图思考,转换成多关系组合构图,关系大于等于3,形成边,是不是每天有团伙出现,就比较异常。

比如上面的案例,我们构建昵称相似、IP 相似、签名相似等等,然后对每天新注册的用户,进行不同阈值的极大连通子图检测。并对团伙规模监控。

如果某天发现:关系大于 3 种,且具有团伙性的用户数比平时的团伙数,增加了 10 倍。平时就有 100 个人具有团伙性,某一天突然 1000 个人有团伙性。也就是里面的人可能部分昵称相似了,部分签名相似了、部分手机号前 3 位相同、部分收货地址相似等等。然后产生了极大的异常性。

差不多就写到这里,今天的文章相对比较混乱,因为很难表达,还有就是最近比较忙,写的匆忙,做风控的应该大概能领悟里面的意思。后面空点了构造一个数据集写个案例。

往期精彩:

[课程]万物皆网络-风控中的网络挖掘方法

风控中的复杂网络-学习路径图

【实战】从原始数据开始构建GCN算法

信用卡欺诈孤立森林实战案例分析,最佳参数选择、可视化等

风控策略的自动化生成-利用决策树分分钟生成上千条策略

SynchroTrap-基于松散行为相似度的欺诈账户检测算法

20大风控文本分类算法之6-基于BERT的文本分类实战

长按关注本号             长按加我进群
      

小伍哥聊风控
风控策略&算法,内容风控、复杂网络挖掘、图神经网络、异常检测、策略自动化、黑产挖掘、反欺诈、反作弊等
 最新文章