一、导论
统计应用领域:企业发展战略、产品质量管理、市场研究、财务分析、经济预测、人力资源管理。
统计数据的分类:按计量尺度:分类数据、顺序数据、数值型数据(★)
按收集方法:观测数据、实验数据
按时间状况:截面数据、时间序列数据
二、数据的搜集
数据来源:调查或实验
调查方法分类:概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样
非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样
搜集数据的基本方法:自填式、面访式、电话式、观察式
数据的误差:抽样误差
非抽样误差:抽样框误差、回答误差、无回答误差、调查员误差、测量误差
三、数据的图标展示
数据的预处理:数据审核、筛选、排序
品质数据包括分类数据和顺序数据,做分类整理
分类数据:计算频数与频数分布,或比例、比率等。图示有条形图、帕累托图、饼图、环形图
顺序数据:累积频数与累积频率。图示分类图示+累积频数分布或频率图
数值型数据做分组整理,有单变量值分组和组距分组两种,组距分组包括等距分组和不等距分组
图示:分组数据——直方图、未分组数据——茎叶图和箱线图、时间序列数据——线图、多变量数据——(散点图、气泡图、雷达图)
四、数据的概括性度量
数据分布特征:集中趋势的度量:分类数据——众数,顺序数据——中位数、四分位数,数值型数据——平均数
离散程度的度量:分类数据——异众比率,顺序数据——四分位差,数值型数据——极差、平均差、方差和标准差
相对位置的度量经验法则:数据对称分布时,68%--正负1个标准差,95%--正负2个标准差,99%--正负3个标准差
切比雪夫不等式,75%--正负2个标准差,89%--正负3个标准差,94%--正负4个标准差
分布形状偏态与峰态的度量:偏态系数SK:SK=0数据对称,SK>1或<-1高度偏态分布,SK在0.5~1或-1~-0.5之间中等偏态分布
峰态系数K:K=0正态分布,K>0尖峰分布,K<0扁平分布
五、概率与概率分布
随机变量:离散型随机变量和连续型随机变量
六、统计量及其抽样分布
常用统计量:均值、样本方差、样本变异系数、样本k阶矩、样本k阶中心矩、样本偏度、样本峰度
抽样分布:卡方分布、t分布、F分布
中心极限定理
七、参数估计
参数估计分为点估计和区间估计
评价估计量的标准:无偏性、有效性、一致性
一个总体参数的区间估计:均值:大样本:z分布
小样本:正态总体方差已知:z分布
正态总体方差未知:t分布
比例:大样本:z分布
方差:卡方分布
两个总体参数的区间估计:均值差:独立大样本:方差均已知:z分布
方差均未知:z分布
独立小样本——正态总体:方差均已知:z分布
方差未知:σ1=σ2:t分布;σ1≠σ2:t分布
比例差:独立大样本:z分布
方差比:F分布
八、假设检验
假设检验流程:提出原假设与备择假设;确定适当的检验统计量并计算其数值;进行统计决策
单侧检验:左单侧检验(也称下限检验)和右单侧检验(上限检验)
一个总体参数的检验:大样本:z统计量
小样本:总体标准差已知:z统计量 总体标准差未知:t统计量
两个总体参数的检验:均值之差:大样本:z统计量 小样本且方差未知:t统计量
比例之差:z统计量
方差比:F统计量
九、分类数据分析
分类数据的结果是频数,卡方检验是对分类数据的频数进行分析的统计方法
卡方统计量可以对分类数据进行拟合优度检验和独立性检验(列联检验)
列联表中相关系数:φ相关系数、列联相关系数、V相关系数
十、方差分析
误差分解:SST=SSE+SSA SST总平方和、SSE误差平方和或残差平方和(组内误差)、SSA因素平方和(组间误差)
基本假定:每个总体都服从正态分布、每个总体的方差必须相同、观测值是独立的
分析步骤:提出假设 H0:μ1=μ2=...=μk 自变量对因变量没有显著影响
构造检验的统计量:计算各样本均值——计算全部观测值的总均值——计算各误差平方和——计算统计量,即MSA和MSE,F=MSA/MSE
作出统计决策 确定α,若F>Fα,则拒绝原假设
分为单因素方差分析和双因素方差分析,双因素方差分析又分为无交互作用的双因素方差分析和有交互作用的方差分析
关系强度的测量:R2
十一、一元线性回归
数值型自变量和数值型因变量之间关系的分析方法,就是相关与回归分析
分类:处理变量多少——两个变量之间:简单相关与简单回归分析
——两个以上变量:多元相关与多元回归分析
变量之间关系形态:线性相关与线性回归分析、非线性相关和非线性回归分析
相关关系对总体假定:两个变量之间是线性关系;两个变量都是随机变量
在进行相关分析时,首先需要绘制散点图来判断变量之间的关系形态,如果是线性关系,则利用相关系数来测度两个变量之间的关系强度,再对相关系数进行显著性检验,以判断样本所反映的关系能否代表两个变量总体上的关系:
——散点图:在线性相关中,两个变量变动方向相同称为正相关;两个变量变动方向相反称为负相关
——相关系数:若根据总体全部数据计算的称为总体相关系数ρ,根据样本数据计算的称为样本相关系数r(也称线性相关系数或pearson相关系数)
相关系数性质:r取值[-1,1];r具有对称性;r大小与x和y的原点及尺度无关;r不能用于描述非线性关系
经验值:|r|≥0.8时视为高度相关;0.5≤|r|<0.8时视为中度相关;0.3≤|r|<0.5时视为低度相关,|r|<0.3可视为不相关
——相关关系的显著性检验:首先考察r的抽样分布,再对r的显著性进行检验:提出假设、计算检验统计量、进行决策
...未完