相似性度量

机器学习中的相似性度量

南楼画角 提交于 2020-03-03 00:05:36
  在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1. 欧氏距离 (Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:   也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。 例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X

机器学习中的相似性度量

吃可爱长大的小学妹 提交于 2020-03-01 22:55:33
本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5. 标准化欧氏距离 6. 马氏距离 7. 夹角余弦 8. 汉明距离 9. 杰卡德距离 & 杰卡德相似系数 10. 相关系数 & 相关距离 11. 信息熵 1. 欧氏距离 (Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:   也可以用表示成向量运算的形式: (4)Matlab计算欧氏距离 Matlab计算距离主要使用pdist函数。若X是一个M×N的矩阵,则pdist(X)将X矩阵M行的每一行作为一个N维向量,然后计算这M个向量两两间的距离。 例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X = [0 0 ; 1 0 ; 0 2] D = pdist(X,'euclidean') 结果: D = 1.0000 2.0000 2.2361 2. 曼哈顿距离 (Manhattan Distance)

数字图像处理——第二章(数字图像基础)

蹲街弑〆低调 提交于 2020-02-09 03:21:11
数字图像基础 一、人眼结构 二、电磁波谱和光 2.1 电磁波谱 2.2 光 三、图像的数学模型 四、图像的取样和量化 4.1 取样和量化的概念 4.2 数字图像表示 4.3 空间和灰度分辨率 4.4 图像内插 4.5 像素间的一些基本关系 4.5.1 相邻像素 4.5.2 邻接性、联通性、区域和边界 4.5.3 距离度量 五、数字图像处理中的数学工具介绍 5.1 阵列与矩阵操作 5.2 线性操作和非线性操作 5.3 算术操作 5.4 集合和逻辑操作 5.4.1 集合操作 5.4.2 逻辑操作 5.5 空间操作 5.5.1 单像素操作 5.5.2 邻域操作 5.5.3 几何空间变换和图像配准 5.6 向量和矩阵操作 5.7 图像变换 5.8 概率方法 一、人眼结构 眼睛由三层膜包裹:角膜与巩膜外壳、脉络膜和视网膜。 角膜 是一种硬而透明的组织,覆盖着眼睛的前表面,巩膜是一层包围眼球其余部分的不透明膜。 脉络膜 包含血管网,是眼睛的重要滋养源。 视网膜 是眼睛最里面的膜。眼睛适当聚焦时,来自眼睛外部物体的光在视网膜上成像。感受器通过感受视网膜表面分布的不连续光形成图案。 光感受器分为: 锥状体和杆状体 。 每只眼睛中的锥状体数量约为600~700万个, 对颜色高度敏感 。使用锥状体人可以充分 分辨图像细节 (每个锥状体都连接到自身的神经末梢)。锥状体视觉称为 白昼视觉或亮视觉 。

相似性度量总结

末鹿安然 提交于 2020-02-07 02:59:32
cosine Jaccard系数(杰卡德系数) cosine更适合稠密空间,Jaccard和tfidf都适合稀疏空间. 狭义Jaccard相似度,计算两个集合之间的相似程度,元素的“取值”为0或1 对集合A和B,Jaccard相似度计算如下: Jaccard(A, B)= |A intersectB| / |A union B| 相似度数值在[0, 1]之间,当A==B的时候,为1. 优缺点,就是元素的取值只能是0或者1,无法利用更丰富的信息 由相似度,可以转换成Jaccard距离: Jaccard distance (A, B) = 1- Jaccard(A, B) TF-IDF 大概估计文本相似度时,使用TF就可以了。当我们使用文本相似度进行检索的类似场景时(如搜索引擎中的query relevence的计算),此时TF-IDF更好一些。 tf/tf-idf为每一个词汇计算得到一个数字,而word embedding将词汇表示成向量 tf/tf-idf在文本分类的任务中表现更好一些,而word embedding的方法更适用于来判断上下文的语义信息(这可能是由word embedding的计算方法决定的)。 曼哈顿距离 如果直接使用AB的欧氏距离(欧几里德距离:在二维和三维空间中的欧氏距离的就是两点之间的距离),则必须要进行浮点运算,如果使用AC和CB,则只要计算加减法即可

数据挖掘试题(150道)

a 夏天 提交于 2020-01-01 00:29:43
单选题 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?© A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则

余弦计算相似度度量

半城伤御伤魂 提交于 2019-12-24 00:24:35
相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细成熟的向量空间余弦相似度方法计算相似度 向量空间余弦相似度(Cosine Similarity) 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。 上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性,极端情况下,a和b向量完全重合。如下图: 如上图二:可以认为a和b向量是相等的,也即a,b向量代表的文本是完全相似的,或者说是相等的。如果a和b向量夹角较大,或者反方向。如下图 如上图三: 两个向量a,b的夹角很大可以说a向量和b向量有很低的的相似性,或者说a和b向量代表的文本基本不相似。那么是否可以用两个向量的夹角大小的函数值来计算个体的相似度呢? 向量空间余弦相似度理论就是基于上述来计算个体相似度的一种方法。下面做详细的推理过程分析。 想到余弦公式

Unsupervised Feature Learning via Non-Parametric Instance Discrimination

試著忘記壹切 提交于 2019-12-14 01:08:08
论文地址: Unsupervised Feature Learning via Non-Parametric Instance Discrimination github代码: NCE代码 摘要: 在有标签数据上训练的神经网络分类器能够很好的捕捉图片间的视觉相似性。文章假设:我们能通过训练基于实例(将每一个样本视为单独的类别)的分类器代替基于类别的分类器,得到可以捕捉视觉相似性的特征表达。我们将其总结为 非参数化实例级判别 ,并且通过**噪声对比估计(noise-contrastive estimation)**解决大量实例类别引起的计算困难。 我们的实验证明了,在无监督学习的限制下,我们的方法在ImageNet数据集上超越了当前最好方法。采用更多的训练数据和更先进的网络结构,我们的方法能够进一步提高分类准确率。通过微调学习到的特征,我们能观察到与半监督学习和目标检测任务上相当的结果。同时,我们的非参数化模型十分紧致:每张图片仅需要提取128维的特征,百万量级的图片也仅需要600MB存储空间,使得实际运行时能够很快达成近邻检索的目的。 引言 研究者在本文中提出的无监督学习的创新方法源于对监督学习物体识别结果的一些观察。在 ImageNet 上,top-5 分类误差远低于 top-1 误差 ,并且图像在 softmax 层输出中的预测值排第二的响应类更可能与真实类有视觉关联。 如图

相似性度量

不想你离开。 提交于 2019-12-05 13:53:58
MATLAB聚类有效性评价指标(外部 成对度量) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多内容,请看: MATLAB: Clustering Algorithms , MATLAB聚类有效性评价指标(外部) 前提:数据的真实标签已知! 1. MATLAB程序 function result = Evaluate(real_label,pre_label) % This fucntion evaluates the performance of a classification model by % calculating the common performance measures: Accuracy, Sensitivity, % Specificity, Precision, Recall, F-Measure, G-mean. % Input: ACTUAL = Column matrix with actual class labels of the training % examples % PREDICTED = Column matrix with predicted class labels by the % classification model % Output: EVAL = Row matrix

距离度量(Distance Metrics)

匿名 (未验证) 提交于 2019-12-03 00:22:01
Euclidean Distance(欧式距离): 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 n维欧氏空间是一个点集, x 两个点 A = (a[1],a[2],…,a[n]) 和 B = (b[1],b[2],…,b[n]) 之间的 距离 ρ( A , B ) 定义为下面的公式: ρ( A , B ) =√ [ ∑( a[i] - b[i] )^2 ] (i = 1,2,…,n) | x | = √( x[1]^2 + x[2]^2 + … + x[n]^2 ) 可用于图像匹配,骨架识别等。 Manhattan Distance(曼哈顿距离): 曼哈顿距离是两点之间的最短距离(在只能向上、下、左、右四个方向进行移动的前提下)。 Mahalanobis Distance(马氏距离): 用来度量一个样本点P与数据分布为D的集合的距离。 假设样本点为: 数据集分布的均值为: 协方差矩阵为S。 则这个样本点P与数据集合的马氏距离为: 马氏距离也可以衡量两个来自同一分布的样本x和y的相似性: 文章来源: 距离度量(Distance Metrics)

距离度量(Distance Metrics)

匿名 (未验证) 提交于 2019-12-03 00:22:01
Euclidean Distance(欧式距离): 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 n维欧氏空间是一个点集, x 两个点 A = (a[1],a[2],…,a[n]) 和 B = (b[1],b[2],…,b[n]) 之间的 距离 ρ( A , B ) 定义为下面的公式: ρ( A , B ) =√ [ ∑( a[i] - b[i] )^2 ] (i = 1,2,…,n) | x | = √( x[1]^2 + x[2]^2 + … + x[n]^2 ) 可用于图像匹配,骨架识别等。 Manhattan Distance(曼哈顿距离): 曼哈顿距离是两点之间的最短距离(在只能向上、下、左、右四个方向进行移动的前提下)。 Mahalanobis Distance(马氏距离): 用来度量一个样本点P与数据分布为D的集合的距离。 假设样本点为: 数据集分布的均值为: 协方差矩阵为S。 则这个样本点P与数据集合的马氏距离为: 马氏距离也可以衡量两个来自同一分布的样本x和y的相似性: 文章来源: 距离度量(Distance Metrics)