描述统计学(Descriptive Statistics):将数据的信息以表格, 图形或数值的形式进行汇总。
数据类型:分为定量数据(数值型数据)和定性数据(类别型数据)。数值型数据又可以分为连续型和离散型,类别型数据又可以分为有序型和无序型。
定性数据:
频数(frequency):数据出现的次数。
相对频数(relative frequency):数据出现的次数/总次数。
百分数(percentage):数据出现的次数/总次数*100%。
定量数据:
平均数(mean):总数值除以总数。总体均值---μ;样本均值---。
注:这里说的平均数是算术平均数,其他还有加权平均数(weighted mean),几何平均数(geometric mean)和调和平均数。
中位数(median):将所有数据按升序排列,当数据个数是奇数时,中位数就是位于中间的数值,当数据个数是偶数时,中位数就是位于中间的两个数值的平均值。
众数(mode):出现次数最多的数据。
四分位数(quartile):将所有数据按升序排列,然后等分为四部分,处在25%位置上的数值称为下四分位数Q1,处在50%位置上的数值称为Q2,处在75%位置上的数值称为上四分位数Q3。
极差(range):最大值-最小值。
四分位间距(interquartile range, IQR):第三分位数(Q3)-第一分位数(Q1)。
方差(variance):用于度量数据间的变异程度。总体方差---;样本方差---。
标准差(standard deviation):方差的平方根。总体标准差---σ;样本标准差---s。
标准值(z-score):某个数值离开平均数有多少个标准差的距离。
注:定量数据可以用分箱的方式转换为定性变量,以此可以再用频数,百分数表示。