数据分析的准备工作
主讲老师:XXX
目录
CONTENTS
1
数据来源
2
数据的清洗
3
数据的排序和分组
Part 01
数据来源
数据来源
在社会经济统计中,所需要的数据与资料主要来源于统计调查。
数据采集的要求:
准确性
及时性
完整性
系统性
1.定义和要求:
01
普查的组织方式:
建立专门的普查机构;
利用调查单位的原始
记录和核算资料,发
放调查表,由登记单
位填报。
普遍调查
02
典型调查是专门
组织的一种非全面调
查,即选择有代表性
的典型单位进行深入
细致的调查。
典型调査
03
抽样调查是数据
分析过程中数据来源
的典型形式。
抽样调查最常见
的形式是问卷调查。
抽样调查
04
网络数据目前是
数据分析中重要且主
要的来源。特点:及
时性、共享性、可靠
性和客观性。
网络数据
数据来源
2.常见的数据来源渠道
Part 02
数据的清洗
数据的清洗
1.定义:
数据清洗是指发现并纠正数据文件
中可识别的错误,包括检查数据一致性,
处理无效值和缺失值等。
与问卷审核不同,录入后的数据清
理一般是由计算机而不是人工完成。
数据的清洗
2.需要清洗的数据类型:
·残缺数据,即应该存在却缺失的信息。
  例如,进货单中供应商的名字,出货单中 客户的区域信息等。对于这一类残缺数据,必须补
全。
·错误数据。
  错误数据的种类很多,例如体重是负
数,输入数据值时釆用了全角的 数值
输入,日期越界,等等。
  这类错误一方面需要在数据输入的过
程中进行严格检查另一方面,需要健
全数据系统,保证数据在经过系统的判
断后存储到数据系统中。
·重复数据。
  相同关键字数据重复出现多次
,需要将重复的数据记录标出并
进行整理。在数据清洗过程中,
主要进行两类处理:一致性检查
和无效值(缺失值)处理。
数据的清洗
2.需要清洗的数据类型:
01
一致性检查是根据每个
变量的合理取值范围和相互
关系,检查数据是否合乎要
求,发现超出正常范围、逻
辑上不合理或者相互矛盾的
数据。
一致性检查
02
由于调查、编码和录入
误差,数据中可能存在一些
无效值和缺失值,需要给予
适当的处理。常用的处理方
法有估算、整例删除、变量
删除和成对删除。
无效值(缺失值)处理
数据的清洗
2.需要清洗的数据类型:
01
用某个变量的样本均值、中
位数或众数代替无效值和缺失值。
估算
04
用一个特殊码代表无效值和缺
失值,同时保留数据集中的全部变
量和样本。
成对删除
02
剔除含有缺失值的样本
整例删除
03
如果某一变量的无效值和缺失值
很多,而且该变量 对于所研究的问题
不是特别重要,则可以考虑将该变量
删除。
变量删除
数据的清洗
2.需要清洗的数据类型:
无效值(
失值)处理
的方法
Part 03
数据的排序
和分组
数据的排序是将一组数据按照
大小、高低、优劣等顺序进行依次
排列的过程。依据数据在经过排序
之后的有序序列中的位置确定的测
度成为顺序统计量。数据经过
排序,有助于了解数据大致的分布
状态,包括数据的取值范围、最大
值、最小值等。数据排序是数据分
组前期准备。
数据的排序和分组
1.数据的排序
数据的排序和分组
2.数据的分组
数据分组是将数据按照某一特征分为不同
的组别的过程。分组过程突出了分组标志这一
特征
数据可以分为数值型数据和非数值
型数据。数据的分组可以对非数值型数
据分组,也可以 对数值型数据分组。
数据的排序和分组
2.数据的分组
数值型数据根据各组的组距是否相同,数值型数据分为
等距分组和异距分组。
·等距分组。是各组组距全部相等,各组中分到的数据
量的多少不会受到组距大小的 影响,便于直接比较各组数
量的多少。主要包括5个步骤,即确定数值的取值范围、确
定组数、计算组距、确 定组限和分配数据。
·异距分组。是各组组距不尽相等的分组方法,主要是
考虑到各组之间数据的数量差 距过大,一些分组中的数据
过多或多少,会影响数据分布状态的分析,所以采用缩小
组距或扩大组距的方法,来拆分数据过多的分组或合并数据
过少的分组。
谢谢观看
THANKS