数据分析的准备工作
主讲老师:
XXX
目录
CONTENTS
1
数据来源
2
数据的清洗
3
数据的排序和分组
Part 01
数据来源
数据来源
在社会经济统计中,所需要的数据与资料主要来源于统计调查。
数据采集的要求:
准确性
及时性
完整性
系统性
1.
定义和要求:
01
普查的组织方式:
建立专门的普查机构;
利用调查单位的原始
记录和核算资料,发
放调查表,由登记单
位填报。
普遍调查
02
典型调查是专门
组织的一种非全面调
查,即选择有代表性
的典型单位进行深入
细致的调查。
典型调査
03
抽样调查是数据
分析过程中数据来源
的典型形式。
抽样调查最常见
的形式是问卷调查。
抽样调查
04
网络数据目前是
数据分析中重要且主
要的来源。特点:及
时性、共享性、可靠
性和客观性。
网络数据
数据来源
2.
常见的数据来源渠道
:
Part 02
数据的清洗
数据的清洗
1.
定义:
数据清洗是指发现并纠正数据文件
中可识别的错误,包括检查数据一致性,
处理无效值和缺失值等。
与问卷审核不同,录入后的数据清
理一般是由计算机而不是人工完成。
数据的清洗
2.
需要清洗的数据类型:
·
残缺数据,即应该存在却缺失的信息。
例如,进货单中供应商的名字,出货单中
客户的区域信息等。对于这一类残缺数据,必须补
全。
·
错误数据。
错误数据的种类很多,例如体重是负
数,输入数据值时釆用了全角的
数值
输入,日期越界,等等。
这类错误一方面需要在数据输入的过
程中进行严格检查
,
另一方面,需要健
全数据系统,保证数据在经过系统的判
断后存储到数据系统中。
·
重复数据。
相同关键字数据重复出现多次
,需要将重复的数据记录标出并
进行整理。在数据清洗过程中,
主要进行两类处理:一致性检查
和无效值
(
缺失值
)
处理。
数据的清洗
2.
需要清洗的数据类型:
01
一致性检查是根据每个
变量的合理取值范围和相互
关系,检查数据是否合乎要
求,发现超出正常范围、逻
辑上不合理或者相互矛盾的
数据。
一致性检查
02
由于调查、编码和录入
误差,数据中可能存在一些
无效值和缺失值,需要给予
适当的处理。常用的处理方
法有估算、整例删除、变量
删除和成对删除。
无效值
(
缺失值
)
处理
数据的清洗
2.
需要清洗的数据类型:
01
用某个变量的样本均值、中
位数或众数代替无效值和缺失值。
估算
04
用一个特殊码代表无效值和缺
失值,同时保留数据集中的全部变
量和样本。
成对删除
02
剔除含有缺失值的样本
整例删除
03
如果某一变量的无效值和缺失值
很多,而且该变量
对于所研究的问题
不是特别重要,则可以考虑将该变量
删除。
变量删除
数据的清洗
2.
需要清洗的数据类型:
无效值
(
缺
失值
)
处理
的方法
Part 03
数据的排序
和分组
数据的排序是将一组数据按照
大小、高低、优劣等顺序进行依次
排列的过程。依据数据在经过排序
之后的有序序列中的位置确定的测
度成为
“
顺序统计量
”
。数据经过
排序,有助于了解数据大致的分布
状态,包括数据的取值范围、最大
值、最小值等。数据排序是数据分
组前期准备。
数据的排序和分组
1.
数据的排序
数据的排序和分组
2.
数据的分组
数据分组是将数据按照某一特征分为不同
的组别的过程。分组过程突出了分组标志这一
特征
数据可以分为数值型数据和非数值
型数据。数据的分组可以对非数值型数
据分组,也可以
对数值型数据分组。
数据的排序和分组
2.
数据的分组
数值型数据根据各组的组距是否相同,数值型数据分为
等距分组和异距分组。
·
等距分组。是各组组距全部相等,各组中分到的数据
量的多少不会受到组距大小的
影响,便于直接比较各组数
量的多少。主要包括
5
个步骤,即确定数值的取值范围、确
定组数、计算组距、确
定组限和分配数据。
·
异距分组。是各组组距不尽相等的分组方法,主要是
考虑到各组之间数据的数量差
距过大,一些分组中的数据
过多或多少,会影响数据分布状态的分析,所以采用缩小
组距或扩大组距的方法,来拆分数据过多的分组或合并数据
过少的分组。
谢谢观看
THANKS