首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

数据清洗超详细概述！含实战演练！

教育 2024-12-17 16:03 黑龙江

简介

大数据时代，必须经过清洗、分析、建模、可视化才能体现其价值，然后众多数据中总是存在很多“脏数据”，也就是不完整、不规范、不准确的数据，数据清洗就是指将“脏数据”洗掉，包括检查数据一致性，处理无效值和缺失值，从而提高数据质量。

数据清洗（data cleaning）可以有多重表述方式，一般认为，数据清洗的含义就是检测和取出数据集中的噪声数据和无关数据，处理遗漏数据，去除空白数据和知识背景下的白噪声

（1）一致性检查

根据每个变量的合理取值范围和相互关系，检查数据是否规范，是否超出正常范围，逻辑上不符或相互矛盾的数据。比如年龄、体重、考试成绩出现了负数，都是超出了正常的范围。SPAA、SAS、Excel等软件都能根据定义的取值范围进行识别筛选。

（2）无效值和缺失值的处理

常用的处理方法有估算、整例删除、变量删除和成对删除

• 估算，就是用某个变量的样本均值、中位数或者众数代替无效值和缺失值，这种办法简单，但没有充分考虑数据中已有的信息，误差可能比较大，另一种办法通过变量之间的相关分析或逻辑推论进行估计，比如某一产品的拥有情况可能和家庭收入有关，可以根据调查对象的家庭收入推算拥有这一产品的可能性。

• 整例删除，剔除含有缺失值的样本，但这种做饭可能会导致有效样本量大大减少，无法利用已有的数据。因此，只适合关键变量确实，或者含有无效值或缺失值的样本比重很少的情况。

• 变量删除，如果某一个变量无效值和缺失值很多，而且经过分析该变量对所研究问题不重要，则可以考虑将该变量删除

• 成对删除，用一个特殊吗代替无效值和缺失值，同时保留数据集中的全部变量和样本，但是计算时只采用有完整答案的样本，因为不同的分析因涉及的变量不同，有效样本量也不同。

清洗原理

利用有关技术如数据仓库、数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足要求的数据

1、预定义清理规则

预定义清理规则一般利用大数据算法实现，具体流程如下：

2、数理统计清洗

通过专门编写的应用程序清洗数据，这也是数据挖掘的模式，比如无监督学习中的聚类，但是这种办法不够灵活，清理过程需要反复进行

3、数据仓库的数据清洗

可以手工实现，但是效率很低

数据清洗的流程

1、数据清洗----预处理

预处理阶段有两个工作

（1）选择数据处理工具

一般使用关系型数据库，单机可以使用MySQL。如果数据量很大，可以采用文本文件存储+Python操作

（2）查看数据的元数据和数据特征

元数据包括字段解释、数据来源、代码表等描述数据的信息，然后抽取一部分数据，使用人工查看，对数据本身有一定的直观了解，方便后续处理

2、数据清洗----缺失值清洗

缺失值是最常见的数据问题，处理办法有很多，一般采用下面的4个步骤

（1）确定缺失值范围

对每个字段计算缺失值比例，然后按照缺失比例和字段重要性制定不同策略

（2）去除不需要的字段

直接删除不需要的字段，但要备份。删除操作最好不要直接操作于原始数据，应抽取部分数据进行模型构建，查看模型效果，如果效果可以就推广到所有数据

（3）填充缺失值内容

该步骤是最重要的一步，一般包含以下几种方式

用业务知识或者经验填充，比如字段“我爱*”，可以通过经验推断“*”填充“你”

用同一个字段指标的计算结果填充，比如平均数、中位数等

用不同指标的计算结果进行填充，比如通过身份证号推断年龄，通过收件人邮政编码推断大体位置等

（4）重新获取数据

3、数据清洗----格式与内容清洗

（1）时间日期、数值、全半角等显示格式不一致

（2）内容中有不该存在的字符

比如身份证号中出现了字母，姓名中出现数字等。

（3）内容与该字段内容不符

如姓名写成了性别，身份证号写成了手机号等

4、数据清洗----逻辑错误清洗

（1）数据去重

（2）去掉不合理的数值

比如年龄为200岁，或者-20岁

（3）去掉不可靠的字段

比如身份证号出生年月为20000101，年龄填了80岁

5、数据清洗----关联性验证

如果数据有多个来源，可以进行关联性验证，该过程经常用于多数据源合并的过程，通过验证数据之间的关联性来选择准确的特征属性。比如商品销售有线下记录，也有电话客服记录，两者通过姓名和手机号关联，看一下同一个人线下登记的商品信息和线上问卷调查出来的信息是不是一致的

数据清洗的工具

1、OpenRefine

是一种新的具有数据画像、清洗、转换等功能的工具，可以观察和操作数据，类似于Excel表格处理软件，但是工作方式更像数据库。

特点：在数据导入的时候可以根据数据类型将数据转换为对应的数值和日期型；相似单元格聚类，可以根据单元格字符串的相似性进行聚类，而且还支持关键词碰撞和近邻匹配算法。

2、DataCleaner

简单、易用的工具，可以分析、比较、验证和监控数据，能够将凌乱的半结构化数据集转换为可视化，并且读取干净可读的数据集，另外还提供数据仓库和数据管理服务

特点：可以访问不同类型的数据存储，如Oracle、MySQL等，可以作为引擎来处理、转换和统一来自多个数据存储的数据。

3、Kettle

国外开源的ETL工具，Java编写，可以在Windows、Linux等系统上运行，支持图形化的GUI设计

特点：开源免费，可维护性好，便于调试，开发简单

4、Beeload

特点：支持大部分主流数据接口，用图形操作界面辅助用户完成数据抽取、转换、装载等规则的设计，并且支持抽取数据的切分、过滤操作

实战

一、下载安装

1、下载OpenRefine

官网：http://OpenRefine.org

2、安装OpenRefine

解压后双击运行 openrefine.exe。如果电脑上没有Java环境，会自动跳转到浏览器下载Java界面

点击同意并开始免费下载，然后安装Java

到这儿环境配置好了，重新双击 openrefine.exe 运行，会启动程序并自动跳转到浏览器OpenRefine主页面

二、运行OpenRefine对数据查看、清洗、导出

选择本地存储文件，以水利局输沙率文件作为今天的测试数据吧，内容如图所示

1、启动OpenRefine，在浏览器中打开运行界面

2、单击 Create Project 中的选择文件按钮，然后选择桌面上的“实测悬移质输沙率成果表_利津(三)40108400_2019_9.csv”文件，然后点击 next 按钮，可以查看已经导入的文件内容了

3、点击右上角的 Create Project，进入到数据记录的显示界面，如图所示

4、选择菜单栏中的下拉箭头，可以对每一列数据进行清洗和转换，如图所示

5、如果要对数据进行过滤，可以选择 Facet 下的 Text facet 命令，如图所示

6、在左边区域 Facet/Filter 下可以看到内容分组的结果，有助于用户对数据进行分析

7、如果要对显示的数据继续查询，例如，想要查看2020年的某一条数据，可以选择这一组，就过滤了整个数据表，在屏幕上只显示这一条数据

8、如果要对数据进行编辑，可以单击每一行右侧的Edit按钮，对数据进行修改，如下图

将日期12改成9，修改完成后单击Apply按钮进行保存，如下图

9、导出数据，选择Export菜单中的Templating选项，如下图所示：

10、在网页中查看生成的数据，如下图

11、单击Export按钮，即可输出数据保存成.txt格式的文件，如下图

三、Excel有效性分析

1.打开Excel，将txt中的内容，复制粘贴到Excel第一列中，如下图

2.选中第一列数据，选择“数据”菜单，找到“数据验证”选项，在弹出的“数据验证”对话框中分别设置“验证条件”和“最大值”和“最小值”

3.设置完成后，选择“数据验证”下拉列表中的“圈释无效数据”选项，会看到表格中的无效数据用椭圆圈注，如下图所示

四、Excel数据分析并清除无效数据

1.打开Excel，输入原始数据

2.选中所有数据单元格区域，单击“数据”选项卡中的“删除重复值”按钮，如下图所示

3.在弹出的“删除重复项”对话框中选择“全选”按钮，如下图

4.执行完删除重复项操作后，如下图所示

版权声明：本文为CSDN博主「抢我糖还想跑」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。

原文链接：https://blog.csdn.net/qq_41749451/article/details/120404431

- END -

爱数据福利大放送

今天，小编也为大家准备了数据分析可视化的学习资料，特意挑选了20个热门行业数据分析可视化报告（包含金融/电影/疫情/企业管理/餐饮/零售......），以及1份数据可视化图表选择指南（比较/联系/分布/构成，高效完成你的数据可视化展示）。

扫描/识别下方二维码

回复【119】即可领取

（20套行业数据分析可视化报告）

（数据可视化图表选择指南）

想要获取更多精彩的内容和个性化的功能吗？

快来点击菜单栏，开启新的体验吧！

如果您认为我们的公众号内容对您有帮助，请分享给您的朋友们，

并把它设为星标

⭐，方便您随时查看。

爱数据LoveData

国内领先数据分析社区，专注数据分析知识分享及求职辅导。爱数据作为一线数据厂商（帆软、观远、永洪等）培训合作伙伴，曾联合阿里、美团、滴滴等一线公司开展数据领域专题分享会。积累10年+行业经验，链接千人数据分析高端人脉，累计服务15w+用户。

最新文章

7个回归分析方法！数据分析师必须掌握

3个面试常见的SQL数据分析题（含数据和代码）

数据分析面试必看！某指标下降了，应该怎么办？

数据分析·业务面试班

7张图总结：SQL数据分析常用语句，一定要收藏！

深度好文：详解用线性回归模型做数据分析，数据分析师进阶必看!

数据分析·就业实战班，0基础高薪入职必备！

36个 Excel 函数！数据分析师常见必备法器！

数据分析前置工作指南 | 超详细版本

盘点数据分析必备的5大核心能力

全网最高性价比的「数据分析」课程，0基础到进阶！

数据清洗超详细概述！含实战演练！

数据分析面试题集锦(一)

数据分析面试题集锦(二)

4000字干货!「数据指标体系」搭建方法详解，赶紧收藏！

数据分析项目，这样做能满足运营的需求

10张图，详解「用户分层」怎么做！

月薪8K，15K，20K数据分析师简历，有哪些区别？

最硬核的数据领域课程，学完就能拿高薪！

一文读懂，数据分析综合评价方法——层次分析法！

分享6款超实用的抖音数据分析工具！助你成为运营高手！

超强干货—SQL语法大合集！看这一篇就够了！

9大「SQL面试题」常见知识点汇总！

5分钟「小红书」关键业务指标说明！数据分析师必看！

35岁后，互联网数据分析人的出路在哪里？

52个数据可视化图表鉴赏，收藏！

拒绝月薪18K的数据分析工作，为什么？

小白看过来！零基础转行数据分析攻略！

8步教你最有效的数据分析方法

如何在工作中快速提升数据分析能力？这五个习惯可以帮助到你！

10个顶级实用的Python库！

数据分析·就业实战班，0基础高薪入职必备！

数据分析规范总结，建议收藏！

10个顶级实用的Python库！

【逻辑思维】数据分析师必备

数据分析·就业实战班，0基础高薪入职必备！

涨薪：9种最常用数据分析方法！

Excel数据分析基础知识大盘点

数据分析师求职：薪资和行业，哪个更重要？

数据分析报告模板来啦！手把手教你做数据分析

转行跳槽，我如何做到成功入职字节跳动

数据分析·就业陪跑，0基础高薪入职必备！

史上最全SQL基础知识总结！

史上最全！数据分析进阶教程，看这一篇就够了！

MySQL导入SQL文件的三种方法！

8个必知必会的统计学基础概念，让你的数据分析更“精准”！

大厂SQL面试常考知识点总结，附真题！

干货|如何构建业务数据分析体系？

数据分析案例分享：1个完整的聚类分析怎么做？

微博商业分析师JD拆解，还有这些隐藏要求？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉