学习笔记(二)数据挖掘概念与技术
1中心趋势度量:均值(mean)、中位数、众数 截尾均值:丢掉高低极端值后的均值 加权算术均值(加权平均): 中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。 用插值法计算中位数的近似值: median= 其中 是中位数区间的下界,N是整个数据集中值的个数, 是低于中位数区间的所有区间的频率和, 是中位数区间的频率,而width是中位数区间的宽度。 众数(mode):集合中出现最频繁的值,可以对定性和定量属性确定众数。(可能出现多个众数) 对于适度倾斜(非对称)的单峰数值数据,有经验关系: ,就是说如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。 中列数(midrange):是数据集的最大和最小值的平均值 。具有完全对称的数据分布的单峰频率曲线中,均值、中位数、众数相同 2度量数据散布:极差、四分位数、方差、标准差和四分位数极差 (1)极差:最大值与最小值之差。分位数:取自数据分布的每隔一定间隔上的点,把数据划分成 基本上 大小相等的连贯集合。2-分位数对应于中位数,4-分位数是3个数据点,把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量,给出数据中间一半所覆盖的范围称为四分位数极差(IQR)=Q3-Q1 (2)五数概括、盒图与离群点 识别可疑离群点的通常规则是,挑选落在第三个四分位数之上或者Q1之下至少1