学习笔记(二)数据挖掘概念与技术

时间秒杀一切 提交于 2019-11-26 14:59:03

1中心趋势度量:均值(mean)、中位数、众数

截尾均值:丢掉高低极端值后的均值

加权算术均值(加权平均):

中位数(median)是有序数据的中间值,对于非对称数据是数据中心更好的度量。

用插值法计算中位数的近似值:median=

其中

是中位数区间的下界,N是整个数据集中值的个数,

是低于中位数区间的所有区间的频率和,

是中位数区间的频率,而width是中位数区间的宽度。

众数(mode):集合中出现最频繁的值,可以对定性和定量属性确定众数。(可能出现多个众数)

对于适度倾斜(非对称)的单峰数值数据,有经验关系:

,就是说如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。

中列数(midrange):是数据集的最大和最小值的平均值

。具有完全对称的数据分布的单峰频率曲线中,均值、中位数、众数相同

2度量数据散布:极差、四分位数、方差、标准差和四分位数极差

(1)极差:最大值与最小值之差。分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。2-分位数对应于中位数,4-分位数是3个数据点,把数据划分成4个相等的部分。第1和3个四分位数之间的距离是散布的一种简单度量,给出数据中间一半所覆盖的范围称为四分位数极差(IQR)=Q3-Q1

(2)五数概括、盒图与离群点

识别可疑离群点的通常规则是,挑选落在第三个四分位数之上或者Q1之下至少1.5*IQR处的值。

五数概括:minimum,Q1,Median.Q3,maximum

boxplot(盒图):端点一般在四分位数上,使得盒的长度是四分位数极差IQR,中位数用盒内线做标记,胡须延伸到min和max的观测值。

方差和标准差:指出数据的散布(离散)程度,越小说明数据观测趋于均值,越大离散程度越大。

注意:一个观测一般不会远离均值超过标准差的数倍,精准的说,最少

%的观测离均值不超过k个标准差。因此,标准差是数据集发散的很好指示器。

3数据统计描述的图形显示:分位数图、分位数-分位数图、直方图和散点图(涉及两个属性,前三个只关于一个属性)

分位数图:是一种观察单变量数据分布的简单有效的方法。在分位数图中xi对应fi画出,

这些数从1/2N到1-1/2N,以相同的步长1/N递增。

分位数-分位数图(q-q图):对着另一个对应的分位数,绘制一个单变量分布的分位数。使得用户可以观察从一个分布到另一个分布是否有漂移。

直方图:

散点图:去定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。

4数据可视化:旨在通过图形表示清晰有效的表达数据。

(1)基于像素的可视化技术:可视化一维值,使用像素反映该维的值。对于宽窗口,已先行方法安排数据记录填充窗口的效果可能不好。解决方法:空间填充曲线(希尔伯特曲线、格雷码、z-曲线)。窗口不必是矩形的。例如,圆弓分割技术。

(2)几何投影可视化技术:首要挑战是设法解决如何在二维上显示可视化高维空间。,可以增加第三维。三维散点图同样也可以使用颜色增加4维数据点。超过4维,散点图矩阵是二维散点图的n*n网格,提供每个维与所有其他维的可视化。平行坐标(流行)可以处理更高的维度,绘制n个等距离、互相平行的轴,每维一个。数据记录用折线表示,与每个轴在对应于相关维值的点上相交。

(3)基于图符的可视化技术:使用少量图符表示多维数据值。(切尔诺夫脸:已经发现,眼睛大小和眉毛的歪斜是重要的。人物线条画:两个维被映射到显示轴,其余的被映射到四肢角度和长度。----》人口普查)

(4)层次可视化技术:把所有维划分成子集(子空间),这些子空间按层次可视化。例如:“世界中的世界(Worlds-within-Worlds)”又称n-Vision,以6维数据可视化为例,选定某三维数据为固定值,使用世界(三维图)对另外三个维度可视化。可以在外世界中交互的改变的内世界原点的位置,然后观察内世界的变化结果。

(5)可视化复杂对象和关系:标签云是用户产生的标签统计量的可视化。

5度量数据的相似性和相异性:簇是数据对象的集合,使得同一个簇中的对象互相相似,而与其他簇中的对象相异。相似性和相异性都称邻近性。

(1)数据矩阵(二模two-mode矩阵)与相异性矩阵(单模one-mode矩阵):数据矩阵(对象-属性结构):这种数据结构用关系表的形式或n*p矩阵存放n个数据对象。

每一行对应着一个对象,在记号中,我们可能使用f取遍p个属性的下标。相异性矩阵

(对象-对象矩阵)
:存放n个对象两两之间的邻近度,通常用一个n*n矩阵表示:

其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量,一般是非负数,两个对象越相似越接近0越不同该值越大。相似性度量:

(2)标称属性的邻近性度量:标称属性可以取两个或多个状态。两个对象i和j之间的相异性可以根据不匹配率来计算:

其中,m是匹配的数目,而p是刻画对象的属性总数。所以,

(3)二元属性的邻近性度量:给出一个具有相同权重的二元属性列联表

对称的二元相异性

非对称的
二元相异性,其中负匹配(两个都取值为0)数t被认为是不重要的,被忽略有

可以基于相似性来度量,非对称的二元相似性

被称为Jaccard系数。

(4)数值属性的相异性欧几里得距离、曼哈顿距离和闵可夫斯基距离。最流行的距离度量是欧几里得距离(“乌鸦飞行”)令i=

和j=

是两个被p数值属性描述的对象。对象i和j之间的欧几里得距离定义为:

曼哈顿(城市块)距离

这两个距离都满足如下性质:非负性、同一性、对称性、三角不等式(d(i,j)<=d(i,k)+d(k,j))。满足这些条件的测度称做度量

闵可夫斯基距离:

是欧几里得距离和曼哈顿距离的推广。h是实数,

.(又称

范数,其中p就是h。L1范数表示曼哈顿距离,L2范数表示欧几里得距离。)

上确界距离(切比雪夫距离、

范数又称一致范数)

(5)序数属性的邻近性度量:与数值型非常类似,可以先把数据进行规范化。

(6)混合类型属性的相异性:更可取的一种方法是将不同属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同区间[0.0,1.0]上。假设数据集包含p个混合类型的数据,对象i和对象j之间的相异性d(i,j)定义为:

    其中,指示符

的取值为0和1,如果

缺失(对象i或j没有属性f的度量值)或者

,并且f是非对称的二元属性取值为0,否则取值为1.属性f对i和j之间相异性的贡献

根据不同的类型计算:f是数值的:

,其中h取遍属性f的所有非缺失对象。f是标称或者二元的:如果

,则

=0;否则

.f是序数的:计算排位

,并将

作为数值属性对待。

(7)余弦相似性:是一种度量,可以用来比较文档,或针对给定查询词向量对文档排序。x和y是两个待比较的向量,使用余弦度量作为相似性函数,我们有

其中,分母是向量x.y的欧几里得范数。余弦值越接近于1夹角越小,向量间的匹配度越大。当属性为二值属性时,余弦相似性函数可以用共享特征或属性解释。假设xi=1,则对象x具有第i个属性。于是

是x和y共同具有的属性数,而

是x具有的属性数与y具有的属性数的几何均值。这时的sim(x,y)是公共属性相对拥有的一种度量。此时,

(Tanimoto距离或Tanimoto系数)。
 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!