简单相关系数

距离计算方法总结

不想你离开。 提交于 2020-03-31 05:17:34
距离计算方法总结   在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1. 欧氏距离 (Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:   也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。 例子:计算向量(0,0)、(1,0)、(0,2

机器学习中的相似性度量

南楼画角 提交于 2020-03-03 00:05:36
  在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1. 欧氏距离 (Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:   也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。 例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X

机器学习中的相似性度量

吃可爱长大的小学妹 提交于 2020-03-01 22:55:33
本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1. 欧氏距离 (Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:   也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。 例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X = [0 0 ; 1 0 ; 0 2] D = pdist(X,'euclidean') 结果: D = 1.0000 2.0000 2.2361 2. 曼哈顿距离 (Manhattan Distance)

统计学第七版学习笔记

三世轮回 提交于 2019-11-29 04:25:25
一、导论 统计应用领域:企业发展战略、产品质量管理、市场研究、财务分析、经济预测、人力资源管理。 统计数据的分类:按计量尺度:分类数据、顺序数据、数值型数据(★)         按收集方法:观测数据、实验数据         按时间状况:截面数据、时间序列数据 二、数据的搜集 数据来源:调查或实验 调查方法分类:概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样        非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样 搜集数据的基本方法:自填式、面访式、电话式、观察式 数据的误差:抽样误差       非抽样误差:抽样框误差、回答误差、无回答误差、调查员误差、测量误差 三、数据的图标展示 数据的预处理:数据审核、筛选、排序 品质数据包括分类数据和顺序数据,做分类整理   分类数据:计算频数与频数分布,或比例、比率等。图示有条形图、帕累托图、饼图、环形图   顺序数据:累积频数与累积频率。图示分类图示+累积频数分布或频率图 数值型数据做分组整理,有单变量值分组和组距分组两种,组距分组包括等距分组和不等距分组   图示:分组数据——直方图、未分组数据——茎叶图和箱线图、时间序列数据——线图、多变量数据——(散点图、气泡图、雷达图) 四、数据的概括性度量 数据分布特征:集中趋势的度量:分类数据——众数,顺序数据——中位数、四分位数,数值型数据—