1.数据的预处理:
是在对数据分类或者分组之前所做的必要处理 内容包括 数据的审核 筛选 排序
1.1 数据审核:检查数据中是否有错误 主要从完整性和准确性去审核 考虑数据的适用性和时效性
完整性:是否有遗漏 填写是否齐全
准确性:是否有错误 和 异常值[看异常值是否正确]
1.2 数据筛选:找出符合特定条件的某类数据[使用Excel]
1.3 数据排序:按照一定顺序将数据进行排列 以便于发现明显的特征或者趋势 有助于对数据的纠错 重新归类或分组提供方便
1.4 数据透视表:借助Excel来生产数据透视表 进行分类汇总和作图 形成一个符合需要的交叉表(列联表)
列联表[两个或两个以上变量交叉分布的频数分布表] 二维列联表---->交叉表
2.品质数据的整理与展示:
预处理后的数据,根据需要进一步做分类和分组
2.1 分类数据的整理与图示:
需要计算出每一类别的频数/频率、比例/比率 形成一张频数分布表 再根据需要进行展示 以便于对数据的特征有初步的了解
2.1.1 频数与频数分布:
频数是指落在某一特定类别或组中的数据个数
把各个类别及其落在其中相应频数 用表格的形式表现出来----->频数分布
2.1.2 分类数据的图示:
用图形来表示会更加的形象和直观 ----> 条形图[长短直观表现]、
帕累托图[分类数据排序后频数的分布]、
饼图[研究结构性问题的分布,多个样本的分布情况]
两个总体或两个样本的分类相同且问题可比---> 环形饼图
2.2 顺序数据的整理与图示:
1.累积频数:将各有序类别或组的频数逐级累加起来得到的频数
----> 从变量大/小 向变量小/大一方进行累加 分别成为 向下/上累积
通过累积频数 可以看出某一类别以下/上的数值之间的频数之和
2.累积频率:将各有序类别或组的百分比逐级累加起来得到的频数 也具有向上和向下累积两种方法
2.3 数值型数据的整理与图示:
1.数据分组:根据研究需要 将原始数据按照某种标准分成不同的组别 分组后的数据成为---->分组数据
分组目的:主要的为了观察数据的分布特征
方法:单变量分组[离散型] 组距分组[连续型]
最大/小值:上限和下限
1.确定组数:适中--->5≤K≤15
2.确定各组组距: (max-min)/组数 向上取整
3.根据分组整理成频数分布表(Excel)
注意:不重不漏的原则
不重:上组限不在内[相邻两组的上下限重叠 140-149 150-159]
在组距分组中 如果全部数据中的最大值和最小值与其他数据悬殊 为避免出现空白组 可以采取“xxx以上”的方法
组中值:(上限+下限)/2
2.数据型数据的图示:
2.1 分组数据:直方图、折线、曲线
2.2 未分组数据:茎叶图[可以看出数据的分布形状及数据的离散状况 对称 集中]
箱线图[最大值 最小值 (上/下)四分位 中位数]--->离群点
2.3 时间序列数据:线图[用来反映现象随时间变化的特征]
2.4 多变量:散点图 [两个变量之间的关系]
气泡图[三个变量]
雷达图[对比各变量数值总和、多个变量的相似程度]
3.合理的使用图表:
正确的使用统计表和图表是做好统计分析最基本的技能
3.1 鉴别图形优劣的准则:尽可能的简洁 但要能够清晰地显示数据、合理的表达统计目的为依据
1、显示数据 2、让读者把注意力集中在图形的内容上 而不是制作图形的程序上
3、避免歪曲 4、强调数据之间的比较
5、服务与一个明确的目的 6、有对图形的统计描述和文字说明
来源:https://blog.csdn.net/qq_40717644/article/details/102759805