风险感知-文本【音变】异感知

文摘   科学   2024-03-07 08:15   浙江  

大家好,我是小伍哥,之前在字节的时候,就有个文本对抗感知的思路,刚开了个头,还没完成,就离职了,最近整理下,分享给大家。

在强对抗的内容风控场景中,内容变异的情况非常多,比如假货风险、色情风险、引流风险等等,他们会进行同音字的替换,也不知道他们会怎么变异,那通过什么办法可以感知到呢,今天讲讲同音字变异的监控思。

下面是一些变异的案例:

噂儆的碦戸:其鎃祝册茺贈镐888葒笣!禛朲对弈佰捆任你選!嶺:http://url.cn/5aLeqP2

佳 工仲号 威信

伽 维伈 躬总号

记录 滨管茶询

抖音 芬撕 业务 咨询我

钭 音  芬 咝  业务 咨询我

涮活动僄 一对一手工

眞惍/定就送888,请您来地主牜牜札斤花

抖暗业务   芬丝 欢迎进店咨询客服

业务   芬丝  欢迎咨询选购

网站++沜买的私聊我

一、与过去对比

用过去30天的数据和今天的对比,那wei xin这个拼音举例

wei_xin_guoqu = [微信,威信,维新,卫星,违心,唯心,魏欣]

wei_xin_todays = [微信,胃芯]

同一个拼音下,突然出现了【胃芯】那即认为这个是高危词语。对应的内容纳入审核范畴。这个方法感觉应该很有效。

二、与大盘对比

具体场景与大盘的频率做一个对比,对于频率相差比较大的,视为异常。公式大概如下:ABS(大盘频率-当前频率)/当前频率

这种方法能够发现一些奇奇怪怪的变异词语,当然可能也有错误的召回,不过在复杂场景中,还是可以试试的。

三、与黑样本对比

对每个拼音对应的词进行统计,统计过去的样本中黑白样本的比例,这样我们就得到了每个拼音的违规情况,对于有风险的拼音,当天的内容出现,既可以认为是有风险的。这里的话,就是相当于比较弱的一个监督学习了。


往期精彩:

[课程]万物皆网络-风控中的网络挖掘方法

风控中的复杂网络-学习路径图

信用卡欺诈孤立森林实战案例分析,最佳参数选择、可视化等

风控策略的自动化生成-利用决策树分分钟生成上千条策略

SynchroTrap-基于松散行为相似度的欺诈账户检测算法


长按关注本号             长按加我进群
      

小伍哥聊风控
风控策略&算法,内容风控、复杂网络挖掘、图神经网络、异常检测、策略自动化、黑产挖掘、反欺诈、反作弊等
 最新文章