模型面试题：如何做数据清洗工作？（80%可能性提问）

文摘科技 2024-09-20 09:02 广东

什么是数据清洗？

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。

数据清洗有什么意义？

对于建模工作而言，工作的职责就是做到精确建模，内容包括样本准备、模型设计、数据准备、特征工程、模型的建立与评估、模型监控等工作。

要想实现好的风控，前提是保证数据的质量，而数据就是较为关键的一步。但是模型的输入是受限的，如果数据有缺陷、没做好清洗工作，那模型就不可能精准。因此，当建模得不到一个准确结果时，第一时间要怀疑的不是用错模型，而是用错了数据。

如何进行数据清洗？

数据清洗工作包括用户唯一性检查，Missing值检查，异常值检查，Zero-rate等。稳定性验证主要考察变量在时间序列上的稳定性，衡量的指标有PSI、平均值/方差，IV等。

具体的数据清洗流程包括：

1、缺失值判断：了解缺失值产生的原因。数据缺失引起的原因多种多样，大致可以概括为IT系统原因、前端录入原因和接入征信公司原因。

2、缺失值处理：缺失值处理的方法有替代、删除、保留这三种方式。

替代法是指用一个已知的经验值代替缺失值。连续性的变量我们可以用变量的平均值或中位数来填充缺失值；离散型的变量可以用众数来填充缺失值；也可以根据样本其他的已知信息利用回归技术逐个计算出缺失处的值：了解异常值出现的原因，根据实际情况决定是否保留异常值。
删除法是选择直接删除包含缺失值的样本。这种做法的前提是需要样本量足够大，而且缺失值是随机的且少量的；另外也可以选择删除缺失值过多的变量，不纳入到分析的样本中。
保留法可以先使用一些数理统计的方法，比如说卡方检验来检验缺失值较多的变量与目标变量的相关关系。如果该变量与目标变量存在一定的相关性，就可以采用保留法，作为某个特殊类别的样本组处理。
如果该变量与目标变量的相关性较弱或者无关，可根据样本量大小选择不同的缺失值处理方法。样本量较大的可选择删除法；样本量小的可采用替代法来处理。

3、常变量/同值化处理：对同值较高或者方差较低的变量作剔除。

4、分类变量降基处理：分类变量可以根据bad_rate编码后再做分箱，也可以将少数类合并成一类，确保每一类中都有好坏样本。

看似流程简单，但需要注意：数据清理一般针对具体应用，因而难以归纳统一的方法和步骤，根据数据不同可以给出相应的数据清理方法。

看到这里，如果你想了解更多风控模型的类型、算法以及作用，与模型的搭建方法以及应用场景，加强风控建模业务模型技巧经验、提升建模能力，从0-1全面学习风控模型，推荐学习「量化风控模型机会创造营3.0」

（想对模型岗位进一步理解，戳小金老师微信咨询xj_fal）

由FAL与全体授课老师用心研发、开发的模型机会创造营，不仅教授评分模型标准开发流程还会详解特征工程。另外，课程一半的时间老师与学生进行案例代码实操教学，学到并能会运用才是学习的关键！⬇️

课程特色

1、特征工程最全解析（分析+辅助模型）

特征的构建决定了建模的成败，好的特征会让我们在建模的路上事半功倍。可以说建模的流程中大部分的时间都在做特征的构建和筛选。

通过学习单特征构建、多特征筛选、四类主流特征构造方法以及各种特征辅助模型构建特征，全面解析特征工程的“套路”，学会自己进行特征评估和特征构建。

2、二分类模型主流算法全流程精讲（带全流程案例实操）

没有代码基础？本课程包含纯干货的快速SQL、Python入门讲解，帮助您在学习途中扫清工具的障碍。

没有算法基础？本课程将带你从最简单的线性回归入手，逐一串讲各类风控模型常用算法。包括但不限于风控模型中最常用的逻辑回归、到更高级的GBDT、XGBoost、LBGM等。并且结合案例的实操，帮您从理论和应用两个层面完成学习的闭环。

3、全场景评分卡模型体系应用

本课程中囊括了全场景的风控评分卡模型种类，包括：

申请类（贷前）评分卡与各种A卡子模型
行为类（贷中）评分卡与各种B卡子模型
催收类（贷后）评分卡与各种C卡子模型
组合评分卡模型

结合实际的应用场景，无论您将来要进入哪个岗位，都有对应的内容帮助你更好的进行模型应用。

4、学一用三：细化场景建模案例实操（贷中支用）

通过对贷中支用模型开发场景的案例实操讲解，能够进一步细化对于信贷评分模型的理解，从而举一反三，彻底掌握评分卡建模，从样本设计到模型开发模型验证的全流程。从此无论面对何种场景化的模型变种，都可以用相同的“套路”解决。

添加小金老师微信免费咨询

课程难度、职业规划

量化风控模型机会实战营3.0

没有模型体系知识

不论是面试还是工作中，模型体系的建立和掌握是至关重要的。尤其是在求职中，面试官对求职者有没有体系性的模型理解是极为看重，有体系性的理解代表着将来他能有无限的可能性。

通过全面课程学习，可以掌握不同场景下建模全流程开发与应用，包括分析思路与代码能力。具体课程安排如下：

△ 上下滑动查看更多

如果你想系统学习，入行模型岗

扫码添加课程顾问，解锁最适合你的学习方式

↓↓↓扫码↓↓↓

添加小金老师微信免费咨询

课程难度、职业规划

量化风控模型机会实战营3.0

没有项目实操经验

对于社招，最大的门槛不是学历、背景，而是有没有相关项目经验。这简直是所有转岗人士的死穴。FAL怎么为大家“解穴”呢？

1. 教你最实用的“经验”

建模特征处理、构建与选择的经验；
各类子模型的经验，应对各种业务细分场景下如何开发模型的问题；
参数优化的经验，让你快准狠的调整核心参数，模型一步到位，让面试官都感觉到你“经验十足“。

2. 手把手带你过项目，走代码，项目实操就有了

通过FAL自建“鲸抖”大数据实操平台，配置统一实验环境，你可以上机实操项目，让你完整体验到模型开发监控的全流程，再也不怕面试官问细节。

更多这门课程广受学员好评，帮助了很多小伙伴的职业发展更清晰明朗。以下是专属课程学习群记录与学员反馈。

△ 上下滑动查看更多

经过课程优化调整后，新增安排了案例互动代码教学以及企业级数据模型结业作业项目互动实练。

△ 上下滑动查看更多

如果你想快速了解模型岗的行业现况

可以添加我们的顾问老师，解锁入行捷径

↓↓↓扫码↓↓↓

添加小金老师微信免费咨询

课程难度、职业规划

量化风控模型机会实战营3.0

http://mp.weixin.qq.com/s?__biz=MzUzNDYyNjk3MA==&mid=2247555759&idx=2&sn=17fe93daecd5632d39a1e762f2c38f0f

金科应用研院

Make Fintech Easier And Smarter

最新文章

Vintage计算需要关注哪些指标？

模型和策略到底是个什么关系？评分模型如何应用于决策

信贷业务19个核心指标解析

3大类20系列企业网课

小微普惠客户标签体系设计

电商信贷的特色数据范围

重新认识贷中管理-从预警到调额

面试风控策略的灵魂3问（含应答技巧）

11月在线招生课程

先收藏了，风控核心15套报表(作用->示例->逻辑)

电商信贷的特色数据范围

【2024企业培训】助力数字化风险管理

值得反复学习Vintage(概念->实战->衍生->解读->应用)

荐：风控高薪入门指南（附岗位核心技能表）

【2024企业培训】助力数字化风险管理

二代征信数据池搭建技巧

先学SQL、Python，再学策略？90%的人都做错了！

二代征信特征衍生技巧（含示例）

详解行为评分卡（B卡）的构建

外部数据源选择与分析技巧（附测试结果）

数据分析师VS策略分析师

【2024企业培训】助力数字化风险管理

从案例看反欺诈：如何构建有效的风控体系

LR和XGB在风控模型中的对比

从案例看时间序列如何助力风险预警

15个核心贷后术语

5个高频问题与解答（策略分析）

常见的6个风控贷前策略

挖掘SDK数据的关键策略与案例分析

电商信贷的特色数据范围

告别数据孤岛，构建全面语义数据体系的成功实践

从案例看实战：策略与模型如何提升信贷风控准确率

数据分析师VS策略分析师，谁能走得更远？

洞察客户价值：AI助力银行提升风控与营销效率

“三率三性三度”三方数据评估实战

讲真，风控策略的入职门槛越来越高了……

风险上升，如何破局？资产结构盘点与调优

【2024企业培训】助力数字化风险管理

常见的6个风控贷前策略

从容化解风险：深度解析信用风险压力测试的应用

揭示洗钱新手段与防控策略

数据分析师的灵魂——AB测试详解！

深入解析资产组合管理的方法与策略

产品盈利性评价方法

老客户也有风险？贷中支用评分的惊人发现

《682页金融科技从业十大宝典》最新消息！

如何用策略挖掘降低逾期风险

特征工程实操的三个阶段

模型面试题：如何做数据清洗工作？（80%可能性提问）

不良率下降的的秘诀：风险预警管理与模型优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉