复杂多模态策略挖掘框架

文摘   2024-09-24 08:17   浙江  

随着业务的复杂以及对抗的加强,对策略的要求也越来越高,对于金融企业而言,可获取的第三方数据越来越多;对于互联网来说,业务越来越复杂,产生了非常多种模态的数据。
比如早期的评论,只包含文本评论,现在很多互联网的评论逐步扩展到图片评论、动图评论、音频评论、视频评论,超链接评论等。
同一个场景,复杂度极大的增加导致遇到或者需要这样的复杂策略挖掘的机会越来越多。好在随着大模型的发展,对于抽象特征的提取越来越精准,在这里我提供一个完善的分析步骤和挖掘方法,方便大家提高。
这种复杂的数据,很难拿到公开数据集,我尽量把方法写详细,大家在自己的数据集上做实验。当然,方法里面涉及的很多数据转换算法,自己能做就自己做,自己做不了就去找合作部门接入,前提是我们脑海中有这些数据的存在,否则即便有这样的数据,也不知道如何利用。像腾讯、字节、阿里这种大厂,基础的内容理解、目标检查、OCR等都有成熟的内容服务,或者现成的数据,找到直接用就行。
对于这种比较复杂的场景,如果数据量级比较少,我们用关联规则来挖掘,如果数据量级比较大,我们最好选择树模型来实现。如果我们能够很好的进行整合,做策略挖掘,那能够发现非常多的有价值策略,对于复杂场景,分析的大概步骤如下:
--内容节选自风控策略自动化挖掘》课程的方法篇。

1、分析目的确定

策略挖掘前,需要根据当前的场景,确定清楚分析目的。我们进行风控策略挖掘,有很多不同的目的,准入策略、聚集性分析、风险感知分析、策略收紧或者放款、风险归因等等。

在策略挖掘前,需要对分析的目的确定。不然毫无目的的分析可能完全背离初衷。信贷里面的:审批准入策略、额度策略、风险定价策略、额度调整策略、用信策略,反欺诈策略等,外部数据评估等, 也是涉及到策略挖掘,目的都不一样。内容安全策略、行为策略等,也是有不同的分析目的。

2、案例模式分析

做风控,对于案例的分析和查看,是非常重要的,很多人,分析的时候,拿着数据就开始,往往很难创新或者没什么灵感,如果看大量的案例,我们就能发现作案的一些隐含的、抽象的、共性等原有数据集里面没有的模式。并提取新的特征,下面是一个壮阳的商家的部分信息。

3、业务数据盘点

通过观察和分析大量的案例,我们就可以对案例里面的数据进行盘点,最大限度的获取风险案例里面的信息。并结合我们之前的挖掘思路,去寻找更多的特征。比如这个案例,我们表面看到的都是一些信息内容。

直接信息:商品标题、店铺标题、商品主图、商家地址、商家属性(粉丝,搜藏、评分、保证金等)、评论文本、评论图片等。

注册信息:注册IP,常用IP,常用城市,注册设备ID,是否模拟器、注册时长等等。

行为信息:登录次数、登录时间段、成交金额、成交用户数等等

尽量多的去拿数据,然后又翻过去看案例,挖掘作案模型并转换成特征。

4、多个模态统一

在复杂场景里面,数据都是以多模态的形式存在的,我们需要转换成可分析元素,比如视频、图片、文本、关系、数字等等,非常丰富,我们要进行策略挖掘,就需要对数据模态进行转换,比如如肉眼和感觉是存在共性特征,但是数据上没法分析,比如相似的图片,相似的文本等等。所以我们必须要进行必要的模态转换,转换成可分析的元素。

比如壮阳的风险里面,我们看了大量的数据,很多产品,都包含如下红框中的猛男形象商标图形,这种情况,我们只要做个小目标检测,输出一个猛男的标签,就可以统计和挖掘分析了。

对于多模态内容,可以提取元素的的一些方向如下:

内容理解:图片中的人物、服装,场景,汽车、阳光、沙滩、酒店等等

目标检测:老虎、藏羚羊、信号灯、爆炸、验证背景画面等

人脸识别:faceID

视频理解:精彩片段、爆炸、低胸、翘臀等

声音片段:音转文ASR、音乐片段ID、呻吟声等

行为序列:注册、验证、召回密码、修改头像、修改昵称等

APP列表:微信,信贷,约会,黑灰产等

... ...

实体识别:地点、组织机构、人名、手机品牌名称等

对于上面的案例,我们可以得出下面的整理数据:
  • 店铺标题

    • 原文:男士一粒挺。

    • 分词:shop_男士,shop_一粒,shop_挺

  • 商品标题

    • 原文:速效助硬勃美国持久性不射男一粒壮延增大粗延迟快肾性保健速效大

    • 分词:title_速效,title_助硬,title_勃,title_美国,title_持久性,title_不射,title_男,title_一粒,title_壮,title_延,title_增大,title_粗,title_延迟,title_快,title_肾,title_性保健,title_速效,title_大

  • 商品主图

    • OCR原文:一粒管三晚挑战的分钟3秒超硬增粗增硬送买二送一15粒速效型烈焰战神

    • OCR关键词:ocr_一粒,ocr_3秒,ocr_超硬,ocr_增粗,ocr_增硬,ocr_战神

    • 目标检测:_label_猛男

  • 商家地址

    • 地址原文:长沙市雨花区跳马镇金屏社区石燕湖59-7号-H44

    • 标准化:长沙市,雨花区,跳马镇金屏社区,长沙市雨花区跳马镇金屏社区石燕湖

  • 商家属性:法定代表_彭小翠,3星级

  • 数字特征:43粉丝,评分4.2,商品数2,保证金500

  • 评论区特征:

    • 评论关键词:com_硬梆梆,com_耐力,com_持久度

    • 评论区模板检测:美女人脸,丝袜,大腿

    • 评论内容理解:一位年轻美女坐在酒店床上。她穿着一条黑色蕾丝边吊带裙,摆着姿势。

注意:文本分词、地址标准化后最好加个前缀,因为两个相通的词在不同的位置,含义和作用是不一样的,对策略的影响也是不同的。

5、训练数据准备

有了上面的步骤,我们对数据进行如下的处理,基本就能够得到了可以进行策略挖掘的数据形态了。回到了我们之前的方法,如果是序列模型,我们准备成序列的形式,如果是数模型,我们转换成数字的形式,然后进行挖掘即可。

6、策略挖掘

到这一步了,直接根据关联规则或者决策树,进行挖掘即可得出对应的策略明细,大概的结果如下:

更完整的挖掘方法,关注课程风控策略自动化挖掘》,或者阅读原文......
往期精彩:

复杂网络社群检测-Leiden算法实战

金融风控-通用建模流程

业务实战-如何搭建知识图谱?

作为风控人,你会找工作么?

利用决策树分分钟生成上千条策略-代码更新

万物皆网络,万字长文详解社区发现算法Louvain

策略自动化挖掘、团伙挖掘-课程链接

社区发现之标签传播算法(LPA)

风控中的复杂网络-学习路径图

长按关注本号             长按加我进群
      

小伍哥聊风控
风控策略&算法,内容风控、复杂网络挖掘、图神经网络、异常检测、策略自动化、黑产挖掘、反欺诈、反作弊等
 最新文章