做风控工作的体验是怎样的?

财富   2024-07-29 00:33   美国  

转载自

做风控工作的体验是怎样的?- 马东什么的回答 - 知乎 https://www.zhihu.com/question/31845457/answer/2304056570

在风控行业卷了几年,谈谈自己的感想吧。

评分卡为主的风控算法岗,比较枯燥,业务为主,做不了太多的创新,除非在蚂蚁,度小满这类的公司,有多源数据,可能能做一些其它的有意思一点的工作吧,大部分金融风控公司的数据翻来覆去就是那么一些,做不出花来,做出来了,也很难上,涉及到钱,大部分人都很保守,宁可无过,不求有功,leader大部分没有年轻人的技术热,这并不是好事也不是坏事。

如果你能在现有的基础上提升3~5个点以上,也许是有机会的,当然,大部分情况下这是不太现实的,除非公司原来就做的很差,如果公司原来就做的很差,没有技术沉淀,技术资源,足够的人员配置,啥也没有,等你开荒,那建议你也别去了。

平常大部分的工作内容就是做etl+数据挖掘+特征工程+xgb+上线+评估+优化这类的,简单,没什么挑战性,可替代性强,做来做去就是二分类,啥特么都是这种模式。要一辈子只做这个,后期竞争力会很弱,因为这一套你随便找个学计算机的大一学生学个半年都能上手,做的可能还比你细致。

好处在于(maybe)退可守吧,可以考虑卷不动了想办法找家银行了此余生,对了,银行也有年龄限制,另外银行和事业单位目前也都逐渐转向聘任制了,“铁饭碗” 要被撼动了。

然后就是评分卡干久了想跳槽会发现,很难找纯粹互联网的,大部分愿意招你的不是继续做评分卡又给钱不多的金融科技公司,就是第三方服务公司,这类公司比较能成长的,业内也就那么几家,十个手指头都能数的过来,其它的就比较呵呵了。

大部分纯粹的互联网公司没有这种应用(得物有佳物分期,其它的互联网公司暂时还没听说有什么评分卡的应用)。

也许你会觉得自己业余时间卷卷cv,图,nlp,timeseries之类的也可以把,但是说老实话,从research到落地的gap的巨大超乎你的想象。并不是你在单机上跑个实验或打个比赛就可以的,例如图吧,怎么考虑图的存储,图数据库的搭建,实时的图计算应该怎么做之类的问题,不是你一个人能单打独斗出来的,这些都需要专业的工程团队支持,而这样的团队意味着大量的支出,这可能吗?不,这不可能。也许某天大leader灵光乍现开始推动这件事情,但你耗不起,基础设施的从0~1的周期是漫长并且充满不确定性的(如果预算有限,就更不用想了)。黄金的学习时间屈指可数,要把自己的聪明才智放在刀刃上而不是在一大堆乱七八糟的破事儿里折腾。算法直到真正产生收益的那一刻起,才算产生了价值,在那之前,一切都是虚无的。

最后你会发现,你把这些东西卷完了,了解熟悉了,知道怎么解决了,但是就像学了屠龙之技,毫无用武之地。

后来做互联网反欺诈了,才真正开始算是把 research+落地结合起来,因为反欺诈和评分卡,推广搜这类成熟的应用相比,还是蓝海,没什么太多的经验可以参照,比较有意思一些,机会也更多一些,坏处就是你必须保持不断的学习,真的很累,互联网风控反欺诈是一个对于知识广度要求很高的应用方向,一方面业务场景太多了,不同的业务场景解决问题的思路完全是不同领域甚至一个看起来显而易见的业务问题都是几个领域知识的交叉,另一方面大部分情况下没有什么标签,即使有数量也很少,即使数量多,模型的衰减也很快,并且不像推荐和评分卡那样,未来用户的标签都是自然生成的,用户点击和用户违约都是自然而然的产生标签的,所以常规的有监督那一套做起来真的很难。

前几天看了一些阿里和腾讯在做反欺诈方面的工作,感慨人家的业务部门和工程团队的支持实在是强,算法工程师真的大部分时间可以focus在算法上,感叹简直是死局。

补充一些吧。

关于反欺诈,内容反欺诈相对而言,会好做一些,因为像一些有问题的句子(比如留个微信号等着仙人跳,诈骗,辱骂,人身攻击等等),人的判断能力要远强过模型,这意味着内容安全的模型落地之后至少还可以做花费相对较少的时间来做模型的评估,因为看久了基本上一目十行,然后人审也会帮忙打标,所以整体还是能够尊崇nlp的一般解决问题的思路,敏感词典的构建是长期的过程,海量词典的快速匹配也有DAT这类成熟的解决方案可以大大优化敏感词的匹配速度。

至于一些黄图,暴力,政治之类的cv相关的内容安全,没怎么接触过,感觉应该比较好玩。这两个都属于可以玩出很多花样的应用,cv和nlp的各种风骚的技巧可以很好的提高炼丹能力,对抗,对比,transformer 之类的都属于相对比较有点技术含量的东西,paper也多,不愁没有思路。

而其它的,个人接触比较多的,一个是图,一个是time series outlier detection。至于常规的tabular里的outlier detection,也就是最主流的研究方向,很多时候不好用,因为主流的异常检测基本上是基于连续数据的,但是互联网反欺诈里很多重要的feature,比如ip,deviceid,idfv,phone number,或者是用户在参与一些邀请活动的时候邀请的user id,全是离散的,因此常规的outlier detection方法比如iforest,lof这类的方法都需要做encoding之后才能handle,而encoding本身是用统计特征代替离散特征,免不了出现information loss的问题。


已离职。

年前年后这段时间也和不少朋友交流了挺多,真的挺无语的。

反欺诈,这玩意儿难度压根不在算法上,很多说是很难解决的业务问题的形式,多花四五天找找paper都能找到解决思路,难在落地上,没几家公司会有那么多远见卓识去培养一批专业的算法工程团队来做支持的。就说图的实时构建吧,多少公司卵都做不出来一个,天天在那改开源的图数据库,还老有公司爱搞自研,一问特么两个人自研,自研尼玛呢????

心累了,去外企养老了,多花点时间陪陪家里人,打打kaggle,看点有意思的新方向吧。


人工智能与量化交易算法知识库
黄含驰的人工智能、优化与量化交易算法知识库,干货满满,不容错过!
 最新文章