接上文:数据收集
今天,接着讲《财务BP从数据分析到管理报表应用实战》。
第三章 数据处理
一、缺失值的处理
缺失值是指在数据采集与整理过程中无法获得的或丢失的内容,一般有两种处理方式:
1、删除对应的记录
这种方式在数据缺失非常少的情况下是可行的,否则就会损失许多有用信息。
2、进行插值处理
人为地用一个数值去替代缺失的数值。
依概率插值:有些情况下,可以事先知道一个变量取各种值的概率。
就近插值:根据确实记录附近的其他记录的情况对缺失值进行插值。
随机插值:根据缺失值的各种可能情况,等概率地进行插值。
分类插值:根据辅助信息对总体进行分类,在每一类内部进行插值处理。
二、Excel单元格返回错误的处理
当在函数或公式中没有可用数值时,将产生错误值“#N/A”,可以用IFERROR函数将其消除。
三、字符数据的规范化处理
1、应用函数拆分单元格字符和数符
字符=LEFT(A2,LENB(A2)-LEN(A2))
数符=RIGHT(A2,2*LEN(A2)-LENB(A2))
2、应用Excel快捷键【Ctrl+E】处理数据
【Ctrl+E】快捷键能通过比对字符串间的关系,来给出最符合用户需要的一种填充规则。
四、含有合并单元格的数据表的处理
合并单元格会给数据后续处理带来很大的麻烦,无论是利用函数或数据透视表,都会得到错误的结果。
可以用快捷键F5,选择定位条件为“空值”,就可以一次性把工作表中的所有合并单元格选中,然后集中一次性处理 。
五、单元格含有未知字符或空字符的处理
这些字符都需要在数据分析之前进行清除,以免影响数据分析结果。
通过【Ctrl+F】快捷键调出【查找与替换】对话框,在“查找内容”输入空格或者复制未知字符,“替换为”什么也不输入。
六、数据筛选
1、按条件筛选数据,复制到其他区域
建立筛选条件区域,选择【数据-高级筛选】,选择“将筛选结果复制到其他位置”,录入“列表区域”“条件区域”“复制到”,点击确认即可。
2、提取两张表的重复数据
将表1作为“列表区域”,表2作为“条件区域”,重复数据可以提取出来。
七、数据分组
在进行数据处理时,需要对数据进行归类,这个过程,称为数据分组。
例如,将受访者的年龄按20岁以下、20-30岁、30岁以上等进行分组。
1、分组标志
选择分组标志要根据研究目的进行。
例如,要研究受教育程度对收入的影响,则分组应当按学历和月收入两个标志进行。
2、组数
按同一标志,可以将数据分成不同数量的组。
如按年龄分组,可以分为儿童、成年人两组,也可以按10年或5年为一段分为更多的组。
组数的确定受研究目的和样本量两个因素影响。
例如,研究就业状态,可以按5年一段将就业人口分6-7个组;而研究消费观念,按青年、中年、老年划分就可以了。
样本量较大时,组数也可以更大一些。
3、组距
组距是指每个组的范围跨度。
如年龄20-30岁分为一组,组距为10。
从自然和社会规律方面来说,组距的确定是客观的,比如按就业身份进行划分。
但是针对一些没有客观标准的标志进行分组时,可以按样本结构确定组距,比如按收入分组时,根据样本的结构划分组距,使每一组的样本数大致接近。
4、组限
组距等于组的上限与下限之差。
有些时候,一个组可能会缺失上限或者下限,如“60岁以上组”。
对于连续型的变量来说,统计惯例是将重合的值计入后一组,如“500-1000元(不含)”和“1000-1500元(不含)”。
5、组中值
组中值=(上限+下限)/2
八、数据的分类汇总
比如销售明细表按风格字段对销售情况进行分析,通过分类汇总功能快速计算。
首先以“风格”作为关键字进行排序,然后点击【数据-分类汇总】。
选择“分类字段”“汇总方式”“汇总项”后,点击确定。
九、选择性粘贴合并数据
如图所示,工作表中有两张第一季度产量表。
现在需要将第一季度产量表(2)中的产量记录与第一季度合并。
可以选中区域(C11:E13)数据复制,然后在C4单元格【选择性粘贴】,勾选“跳过空单元”,单击确定即可。
十、数据的转换
1、字符型日期的转换
点击【数据-分列】,在弹出的“文本分列向导”的第1步、第2步按默认,第3步对话框的“列数据格式”选“日期”,日期格式选“YMD”。
2、字符型数据的转换
通过在G2单元格输入公式“=VALUE(C2)”,将字符型数据,转换为数字。
十一、数据的转置
1、通过“选择性粘贴”进行数据转置
在“选择性粘贴”对话框,勾选“转置”即可。
2、使用TRANSPOSE函数进行数据转置
选中单元格区域A8:D11,在编辑栏输入公式“=TRANSPOSE(A2:D5)”,按下“Ctrl+Shift+Enter”,设置组数公式即可。
今天就到这,下期我们来讲《数据分析的方法与应用》。