超平面

凸优化笔记——1.凸集

纵然是瞬间 提交于 2020-01-14 09:12:52
凸集 本章目录 凸集与仿射集 一些例子 保凸运算 广义不等式 分割超平面与支撑超平面 对偶锥与广义不等式 本章目录 凸集与仿射集 仿射集合 affine set 定义:给定两点 x 1 , x 2 ∈ R n , x 1 ≠ x 2 x_1,x_2 \in R^n, x_1 \neq x_2 x 1 ​ , x 2 ​ ∈ R n , x 1 ​  ​ = x 2 ​ ,所有满足 x = θ x 1 + ( 1 − θ ) x 2 , θ ∈ R x = \theta x_1 + (1-\theta)x_2, \theta \in R x = θ x 1 ​ + ( 1 − θ ) x 2 ​ , θ ∈ R 的点。 注意:仿射集包含过集合中任意两点的直线。 例子:线性方程组的解集是仿射集, C = { x ∣ A x = b } C=\{x | Ax = b\} C = { x ∣ A x = b } 。反之亦然,任何一个仿射集都可以表示为一组线性方程组的解。 凸集 convex set 定义:与仿射集类似,但要求 θ ∈ [ 0 , 1 ] \theta \in [0,1] θ ∈ [ 0 , 1 ] ,即任取集合中 x 1 , x 2 x_1,x_2 x 1 ​ , x 2 ​ ,两点之间的线段组成的集合。 例子: 凸组合与凸包 convex combination &

机器学习——svm应用

烈酒焚心 提交于 2020-01-12 01:37:27
本章着重对算法部分进行讲解,原理部分不过多叙述,有兴趣的小伙伴可以自行查阅其他文献/文章 一、什么是svm 支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的 广义线性分类器(generalized linear classifier) ,其决策边界是对学习样本求解 最大边距超平面(maximum-margin hyperplane) 。 1、支持向量与超平面 在了解svm算法之前,我们首先需要了解一下线性分类器这个概念。比如给定一系列的数据样本,每个样本都有对应的一个标签。为了使得描述更加直观,我们采用二维平面进行解释,高维空间原理也是一样。 举个例子,假设在一个二维线性可分的数据集中,如下图所示,我们要找到 一条线 (称为 超平面 )把两组数据分开,这条直线可以是图中的直线H 1 ,也可以是直线H 2 ,或者H 3 ,但哪条直线才最好呢,也就是说哪条直线能够达到最好的分类效果呢?那就是一个能使两类之间的空间大小最大的一个超平面,即图二中的gap在两个分类之间 所占空间最大 。 这个超平面在二维平面上看到的就是一条直线,在三维空间中就是一个平面,高纬度下以此类推,因此,我们把这个划分数据的决策边界统称为 超平面 。 离这个超平面最近的点就叫做 支持向量 , 点到超平面的距离叫 间隔

《统计学习方法学习》算法学习笔记(一)之感知机

丶灬走出姿态 提交于 2019-12-30 09:44:53
感知机 总述 感知机是 二类分类 的 线性分类模型 ,其 输入 为实例的 特征向量 , 输出 为 实例的类别 ,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的 分离超平面 ,属于 判别模型 。感知机学习旨在求出将训练数据进行线性化分的分离超平面,为此,导入基于 误分类的损失函数 ,利用 梯度下降法 对损失函数极小化,求得感知机模型。感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学到的感知机模型对新的输入实例进行分类。 1.1 感知机模型 定义 :假设输入空间(特征空间) x x x 是 R n \R^n R n ,输出空间是 y y y ={-1, +1},输入 x x x 表示实例的特征向量,对应于输入空间(特征空间)中的点,输出 y y y 表示实例的类别。由输入空间到输出空间的如下函数 f ( x ) = s i g n ( w ∗ x + b ) f(x)=sign(w*x+b) f ( x ) = s i g n ( w ∗ x + b ) 称为感知机 。其中, w w w 和 b b b 称为感知机模型参数, w ∈ R n w∈R^n w ∈ R n 叫权值或权值向量, b ∈ R b∈R b ∈ R 叫作偏置, w ∗ x w*x w ∗ x 表示 w w w 和 b b b 的内积, s i g n

支持向量机数学推导

爱⌒轻易说出口 提交于 2019-12-28 03:25:11
引言 SVM的数学推导真的是我一生的痛,看看觉得很懂,但是过了3秒,就在纠结,为什么可以这样换算?今天早上在看集成学习的时候,讲课的老师一直说SVM、SVM、SVM。。。嗯,没错,我又开始回想SVM的数学推导过程,然后,我的一个早上就这样没了。 这次趁着刚看完印象深刻,我想将刚厘清的思路写下来。仅包括如何推出最优化问题,后面的推导我打算等看完凸优化课程再记录,推导过程参考林轩田老师教授的《机器学习技法》内容。 回顾线性分类 线性分类的分类器表达式为 \[ \begin{equation} h(x) = sgn(w^Tx + b) \end{equation} \] 林老师之前讲线性分类时用的是PLA算法,即根据当前分类器是否将所有的点分类正确 \((h(x)==y)\) 。如果有一个点分类错误,那么朝着这个点或偏离这个点更新。算法一直迭代直到所有的点正确分类为止。PLA算法得到的分类器不唯一,仅凭线的初始位置这一个因素便能影响最终的分类器。 但是我们知道最想要的分类器长什么样子。我们希望这个分类器足够"胖",也就是说,这根线变胖的时候,边上的点越迟碰到它越好。 显然,看了上面的表述,我们应该知道决定这个超平面长什么样子的数据点只有那么几个,就是那些离超平面更近的点。下面开始将这个问题表述为一个最优化问题。 最优化问题的推导 我们想要寻找的超平面是 \[ \begin

西瓜书第六章 支持向量机

不羁的心 提交于 2019-12-28 03:24:50
6.1 间隔与支持向量 分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开并选择泛化能力最强的划分超平面。划分超平面可通过如下线性方程描述,其中 W=(w_1;w_2;…;w_d)为法向量,决定了超平面的方向,b为位移项,决定了超平面与原点之间的距离。 样本空间中,任意点 x 到超平面( w , b )的距离可写为 假设超平面( w ,b)能将训练样本正确分类,即对于( x _i,y_i)∈D,若y_i=+1,则有 w T x _i+b>0;若y_i=-1,则有 w T x _i+b<0。令 距离超平面最近的这几个训练样本点使得上式的等号成立,称为“支持向量”,两个异类支持向量到超平面的距离之和为 被称为“间隔”margin,欲找到具有“最大间隔”的划分超平面,也就是找到约束参数w和b,使得γ最大,即: 支持向量机(support vector machine)SVM的基本型如下: 6.2 对偶问题 感觉学习知识不是一味的抄书转载别人的博客,好像博客转到自己名下了,就是学会了,要学会总结啊亲~ 毕业要求变高,一篇小论文不够啊~! 来源: https://www.cnblogs.com/yiruparadise/p/6062253.html

西瓜书笔记-支持向量机-1

爱⌒轻易说出口 提交于 2019-12-28 03:24:37
ω支持向量机简介 支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)(百度百科) 间隔和支持向量 因为分类学习的基本想法就是在训练集D{(x1,y1),(x2,y2),...,(xm,ym)}的样本空间中找到一个划分超平面将不同类别的样本分开。因此我们的目的就是在众多划分超平面中找到一个最好的划分平面(如下图)。 图1 : 存在多个划分超平面将两类训练样本分开 从上图可以看出红色的划分超平面应该是效果最好的,因为该划分超平面对样本局部扰动的“容忍”性最好。因为由于训练集的局限性或噪声的因素,训练集之外的样本可能更加接近两个类的分隔界,这就会使得许多的划分超平面出现错误,而红色的超平面影响最小,也就是说这个划分超平面所产生的分类结果是最“鲁棒”的,泛化能力最强的。 鲁棒性(Robust):强壮和健壮的意思,在这里是指训练后的模型对异常数据进行分类仍然能够得到较好的结果 泛化能力:学得模型适用于没在训练集中出现的样本的新样本的能力,称为泛化能力 在样本空间中,划分超平面可以用如下线性方程来描述: ωTx + b =

SVM的点滴

核能气质少年 提交于 2019-12-25 12:56:18
SVM 1. 普通SVM的分类函数可表示为: 其中 ai 为待优化参数,物理意义即为支持向量样本权重, yi 用来表示训练样本属性,正样本或者负样本,为计算内积的核函数, b 为待优化参数。 其优化目标函数为: 其中 ||w|| 用来描述分界面到支持向量的宽度,越大,则分界面宽度越小。 C 用来描述惩罚因子,而 则是用来解决不可分问题而引入的松弛项。 在优化该类问题时,引入拉格朗日算子,该类优化问题变为: 其中待优化参数 ai 在数学意义上即为每个约束条件的拉格朗日系数。 而MKL则可认为是针对SVM的改进版,其分类函数可描述为: 其中, K k ( xi , x )表示第 K 个核函数, 则为对应的核函数权重。 其对应的优化函数可以描述为: 在优化该类问题时,会两次引入拉格朗日系数, ai 参数与之前相同,可以理解为样本权重,而 则可理解为核函数的权重,其数学意义即为对每个核函数引入的拉格朗日系数。具体的优化过程就不描述了,不然就成翻译论文啦~,大家感兴趣的可以看后面的参考文档。 通过对比可知,MKL的优化参数多了一层 其物理意义即为在该约束条件下每个核的权重。 Svm的分类函数形似上是类似于一个神经网络,输出由中间若干节点的线性组合构成,而多核学习的分类函数则类似于一个比svm更高一级的神经网络,其输出即为中间一层核函数的输出的线性组合。其示意图如下: 上图中

SVM理解

蓝咒 提交于 2019-12-25 12:56:03
一、概念 支持向量机是学习策略的间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。 二、问题类型 1)训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,叫线性可分支持向量机,又称硬间隔支持向量机。 2)当训练数据近似线性可分时,加入松弛变量,通过软间隔最大化,叫线性支持向量机,又称软间隔支持向量机。 3)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。 三、线性可分支持向量机 点(a 0 ,a 1 )到直线或者平面w 0 x 0 +w 1 x 1 +b的距离如下:              换成向量形式为:              定义超平面(w,b)关于训练集T的几何间隔为超平面(w,b)关于T中所有样本点(x i ,y i )的几何间隔之最小值,几何间隔一般是实例点到超平面的带符号的距离,当样本点被超平面正确分类时就是实例点到超平面的距离。 在线性可分时,r=|w·x+b|等价为y i (w·x i +b),yi=±1,因为当样本被正确分类时,y i (w·x i +b)的乘积亦为正值,r又称为函数间隔 从上述点到平面的距离可以看出,当w和b成倍进行缩放的时候,距离是不变的,因为分子分母正好抵消。所以为了方便计算与优化,我们对w和b进行缩放

相似文档查找算法之 simHash 简介及其 java 实现

纵饮孤独 提交于 2019-12-14 21:34:44
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。产生的两个签名,如果相等,说明原始内容在一定概 率 下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义 上来 说,要设计一个 hash 算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值除了提供原始内容是否相等的信息外,还能额外提供不相等的 原始内容的差异程度的信息。 而 Google 的 simhash 算法产生的签名,可以满足上述要求。出人意料,这个算法并不深奥,其思想是非常清澈美妙的。 1、Simhash 算法简介 simhash算法的输入是一个向量,输出是一个 f 位的签名值。为了陈述方便,假设输入的是一个文档的特征集合,每个特征有一定的权重。比如特征可以是文档中的词,其权重可以是这个词出现的次数。 simhash 算法如下: 1,将一个 f 维的向量 V 初始化为 0 ; f 位的二进制数 S 初始化为 0 ; 2,对每一个特征:用传统的 hash 算法对该特征产生一个 f 位的签名 b 。对 i=1 到 f : 如果b 的第 i 位为 1 ,则 V 的第 i 个元素加上该特征的权重; 否则,V

统计学习方法与Python实现(二)——k近邻法

放肆的年华 提交于 2019-12-09 20:20:40
统计学习方法与Python实现(二)——k近邻法   iwehdio的博客园: https://www.cnblogs.com/iwehdio/ 1、定义   k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。k近邻法不具有显式的学习过程,而实际上是利用训练数据集对特征空间进行划分,并作为其分类的模型。k近邻法的三个基本要素是 k值的选择、距离度量和分类决策规则。   k近邻法的模型是将特征空间划分成一些称为单元的子空间,并且每个单元内的点所属的类都被该单元的类标记所唯一确定。   单元的划分和类标记的确定需要首先对距离进行度量。特征空间中两个实例点的距离是它们之间相似程度的反映。对于n维实数向量的特征空间Rn,两向量xi和xj之间的Lp距离定义为:   当p=1时,称为曼哈顿距离:   当p=2时,称为欧氏距离:   当p=∞时,取值为各个坐标距离的最大值:   对于k值的选择,如果选择较小的k值,学习的近似误差会减小,但估计误差会增大,对噪声敏感。k值的减小就意味着整体模型变得复杂,容易发生过拟合。如果选择较大的k值,可以减少学习的估计误差,但缺点是学习的近似误差会增大。k值的增大 就意味着整体的模型变得简单。   在应用中,k值一般取一个较小的数值,并通过交叉验证法来确定最优的k值。