APPlist是指应用程序清单,这个内容在海外现金贷业务中,相信是各位风控童鞋用得最多的一个(类)内容了。
APPlist其四个要素信息主要包括APP的名字(name)、包名(package name)、版本号(versionumber)及安装时间(timestamp),这四项信息构成了APP单元的基本属性。以下我们介绍下APPlist相关的几种挖掘思路总结要点:
1.四种APPlist的挖掘思路
基于Word To Vec的算法、APP标签统计特征、基于历史数据的表现以及APP的概率建模。其中,基于历史数据的表现方法可以通过提取高风险或中风险的应用程序名单,并以此为基础建立新的用户APP列表与其进行对比,从而得出该用户是否高频下载这类高风险应用的可能性
2.每款APP的安装时间和申请日期之间的天数差
在相关的时间的计算中,我们会优先选取这款APP的应用名(package name)、安装时间(timestamp),并通过计算得出其离申请日期的距离(app installation time stamp minus the submission date)。
这里有个数据处理的细节是:
两种类型的整数字符串——十位数和十三位数,这两种分别表示的是秒和毫秒。建议我们将所有数值转换为十位数的整数,以便统一单位精度。
3.每个用户的APPlist构建模型预测风险等级
基于每个用户的APPlist建立模型预测风险级别。主要包括三个方面的工作:
一是过滤掉距离申请日期超过N天的应用程序;
二是根据不同包名称(package name)统计好/坏用户数量及比例;
三是利用上述统计数据计算每款APP的风险等级;
4.关于如何处理旧版APP的问题?
较老版本的应用并不适用于所有用户,因为它们与现代用户的使用习惯可能存在较大差异;
因此,在实际操作中应对每个用户的APP进行筛选,只选取近期(例如最近一周)安装的APP作为训练集的一部分;这样能够减少噪声干扰,提高模型预测精度。
5.APPlist分类框架的要求
在设计APP的分类框架时,需要满足准确性的要求,即每一类APP都有明确的大类和小类,并且能够在统计特征时不平衡不同APP的风险;另外还需要考虑可迭代性的问题,因为每天都会有大量的新APP产生,所以框架需要具备自动化的升级功能。
以上通过应用商店的分类标签数据或者应用的功能介绍,我们也可以提取的关键字来进行初步分类,关于这一类做法,在番茄风控即将到来的课程中,会为大家讲解里面的细节内容,相关细节参考如下:
番茄风控常规化的会员社区,内容一直在迭代与更新,最新的内容等待各位小伙伴的参与。现在课程已经更新至120期+,点击左下角【阅读原文】即可来一起拼团学习:
往期的会员直播课程查看如下:
往期回顾
以上课程将免费开放,给所有番茄风控大数据的会员同学学习,加入社区点击左下角【阅读原文】进行了解。
目前我们的知识星球上也有上百篇干货文档与公众号付费文档,现在加入知识星球可以一次性学习提升:
往期的文章有(包括但不限于):
⑤FPD模型、首逾模型、欺诈模型,这些风控干货值得实操了解(上)
......
官方企业微信号,扫码添加