02-31 线性支持向量机

跟風遠走 提交于 2020-03-02 10:34:49

线性支持向量机

在这里插入图片描述

  在线性可分支持向量机中说到线性可分支持向量机有一个缺点是无法对异常点做处理,也正是因为这些异常点导致数据变得线性不可分或者会因为它的正好被判断为支持向量导致模型的泛化能力变差。

# 异常点导致数据线性不可分图例
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

x1 = [2, 2.5, 3.2, 6.5]
x11 = [1, 4.5, 5, 6]
x2 = [1.2, 1.4, 1.5, 1.2]
x22 = [1, 1.5, 1.3, 1]

plt.scatter(x1, x2, s=50, color='b')
plt.scatter(x11, x22, s=50, color='r')
plt.vlines(3.9, 0.8, 2, colors="g", linestyles="-",
           label='$w*x+b=0$', alpha=0.2)
plt.text(1.1, 1.1, s='异常点A', fontsize=15, color='k',
         ha='center', fontproperties=font)
plt.text(6.3, 1.3, s='异常点B', fontsize=15, color='k',
         ha='center', fontproperties=font)
plt.legend()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jJy0o7U8-1582896830484)(02-31%20%E7%BA%BF%E6%80%A7%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA_files/02-31%20%E7%BA%BF%E6%80%A7%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA_2_0.png)]

  上图可以看出由于异常点A和异常点B可能导致无法按照线性可分支持向量机对上述数据集分类。

# 异常点导致模型泛化能力变差图例
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn import svm
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

np.random.seed(8)  # 保证数据随机的唯一性

# 构造线性可分数据点
array = np.random.randn(20, 2)
X = np.r_[array-[3, 3], array+[3, 3]]
y = [0]*20+[1]*20

# 建立svm模型
clf = svm.SVC(kernel='linear')
clf.fit(X, y)

# 构造等网个方阵
x1_min, x1_max = X[:, 0].min(), X[:, 0].max(),
x2_min, x2_max = X[:, 1].min(), X[:, 1].max(),
x1, x2 = np.meshgrid(np.linspace(x1_min, x1_max),
                     np.linspace(x2_min, x2_max))

# 得到向量w: w_0x_1+w_1x_2+b=0
w = clf.coef_[0]
# 加1后才可绘制 -1 的等高线 [-1,0,1] + 1 = [0,1,2]
f = w[0]*x1 + w[1]*x2 + clf.intercept_[0] + 1

# 绘制H2,即wx+b=-1
plt.contour(x1, x2, f, [0], colors='k', linestyles='--', alpha=0.1)
plt.text(2, -4, s='$H_2={\omega}x+b=-1$', fontsize=10, color='r', ha='center')

# 绘制分隔超平面,即wx+b=0
plt.contour(x1, x2, f, [1], colors='k', alpha=0.1)
plt.text(2.5, -2, s='$\omega{x}+b=0$', fontsize=10, color='r', ha='center')
plt.text(2.5, -2.5, s='分离超平面', fontsize=10,
         color='r', ha='center', fontproperties=font)

# 绘制H1,即wx+b=1
plt.contour(x1, x2, f, [2], colors='k', linestyles='--')
plt.text(3, 0, s='$H_1=\omega{x}+b=1$', fontsize=10, color='r', ha='center')

# 绘制数据散点图
plt.scatter(X[0:20, 0], X[0:20, 1], cmap=plt.cm.Paired, marker='x')
plt.text(1, 1.8, s='支持向量', fontsize=10, color='gray',
         ha='center', fontproperties=font)

plt.scatter(X[20:40, 0], X[20:40, 1], cmap=plt.cm.Paired, marker='o')
plt.text(-1.5, -0.5, s='支持向量', fontsize=10,
         color='gray', ha='center', fontproperties=font)

# 绘制假设的异常点及假设的间隔边界,**毫无意义的代码**,为了讲解用
plt.scatter(-1.5, 3, marker='x', c='b')
plt.text(-1.5, 3.1, s='异常点A', fontsize=10,
         color='r', ha='center', fontproperties=font)
x_test = np.linspace(-3, 4, 666)
y_test = -(w[0]+0.12)*x_test - (w[1]-0.002)*x_test+clf.intercept_[0]+1.8
y_test_test = -(w[0]+0.12)*x_test - (w[1]-0.002)*x_test+clf.intercept_[0]+2.3

plt.plot(x_test, y_test, linestyle='--')
plt.plot(x_test, y_test_test)

plt.xlim(x1_min-1, x1_max+1)
plt.ylim(x2_min-1, x2_max+1)
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0S6bMKdU-1582896830485)(02-31%20%E7%BA%BF%E6%80%A7%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA_files/02-31%20%E7%BA%BF%E6%80%A7%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA_4_0.png)]

  上图可以看出由于异常点导致分离超平面从淡实线变成了黄色的那条曲线,从图中可以明显看出异常点严重影响了模型的泛化能力。

  这次讲到的线性支持向量机(linear support vector machine)将修改线性可分支持向量机的硬间隔最大化为软间隔最大化解决上面有异常点导致的问题。

在这里插入图片描述

线性支持向量机学习目标

  1. 硬间隔最大化和软间隔最大化的区别
  2. 线性支持向量机的支持向量
  3. 合页损失函数
  4. 线性支持向量机的步骤

线性支持向量机详解

硬件隔最大化和软间隔最大化

硬间隔最大化

  线性可分支持向量机中说到线性可分支持向量机的目标函数的最优化问题属于硬间隔最大化,即
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \underbrace{…

软间隔最大化

  上一节讲到异常点会导致数据线性不可分,即意味着某些样本点不能满足函数间隔大于等于11的约束条件,为了解决该问题可以对每个样本点(xi,yi)(x_i,y_i)引进一个松弛变量ξi0\xi_i\geq0,使得函数间隔加上松弛变量大于等于1,因此约束条件将变成
yi(wxi+b)1ξi y_i(wx_i+b)\geq1-\xi_i
  相比较硬间隔最大化,可以看到样本到分离超平面的函数距离要求放松了,之前一定要大于等于11,现在只需要加上一个大于等于00的松弛变量大于等于11即可。同时,每个松弛变量ξi\xi_i对应一个代价ξi\xi_i,则目标函数变成了
12ω2+Ci=1mξi {\frac{1}{2}}{||\omega||}^2 + C\sum_{i=1}^m\xi_i
其中C>0C>0称为惩罚参数,CC值越大,对误分类样本惩罚越大,即间隔宽度越小;CC值越小,对误分类样本惩罚越小,即间隔宽度越大。

  现在的目标函数有两层意思,即希望12ω2{\frac{1}{2}}{||\omega||}^2尽量小的同时误分类样本也尽可能的少,CC则是协调两者关系的正则化惩罚系数。上面的思路较于硬间隔最大化称为软间隔最大化,也因此线性支持向量机的原始问题为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \underbrace{…

线性支持向量机定义

  对于给定的线性不可分的训练数据集,通过求解上一节的线性支持向量的原始问题即凸二次规划问题即软间隔最大化问题,假设问题的解释ww^*bb^*,得到的分离超平面为
wx+b=0 w^*x+b^*=0
分类决策函数为
f(x)=sign(wx+b) f(x) = sign(w^*x+b*)
称作线性支持向量机。

软间隔最大化即目标函数的优化

  线性支持向量机的原始问题为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \underbrace{…
  通过线性支持向量机的原始问题可得原始问题的拉格朗日函数为
L(ω,b,ξ,α,μ)=12w2+Ci=1mξii=1mαi(yi(wxi+b)1+ξi)i=1mμiξi L(\omega,b,\xi,\alpha,\mu)={\frac{1}{2}}{||w||}^2+C\sum_{i=1}^m\xi_i-\sum_{i=1}^m\alpha_i(y_i(wx_i+b)-1+\xi_i)-\sum_{i=1}^m\mu_i\xi_i
其中μi0,αi0\mu_i\geq0,\alpha_i\geq0,均为拉格朗日系数。

  即现在需要优化的目标函数为
minω,b,ξmaxμi0,αi0L(ω,b,α,ξ,μ) \underbrace{\min}_{\omega,b,\xi}\underbrace{\max}_{\mu_i\geq0,\alpha_i\geq0}L(\omega,b,\alpha,\xi,\mu)
  由于优化的目标函数满足KKT条件,即可以通过拉格朗日对偶将上述的优化问题转化为等价的对偶问题为
maxμi0,αi0minω,b,ξL(ω,b,α,ξ,μ) \underbrace{\max}_{\mu_i\geq0,\alpha_i\geq0} \underbrace{\min}_{\omega,b,\xi} L(\omega,b,\alpha,\xi,\mu)
  对偶问题为拉格朗日函数的极大极小问题,因此首先求L(ω,b,α,ξ,μ)L(\omega,b,\alpha,\xi,\mu)ω,b,ξ\omega,b,\xi的极小,即
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \nabla_wL(\o…

KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & w=\sum_{i=1}…
  将上述三个式子代入拉格朗日函数即可得(注:推导过程类似于线性可分支持向量机的推导过程,不多赘述,直接给出结果)
minω,b,ξL(ω,b,α,ξ,μ)=12i=1mj=1mαiαjyiyj(xixj)+i=1mαi \underbrace{\min}_{\omega,b,\xi} L(\omega,b,\alpha,\xi,\mu) = -{\frac{1}{2}}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j(x_ix_j)+\sum_{i=1}^m\alpha_i
  通过minω,b,ξL(ω,b,α,ξ,μ)\underbrace{\min}_{\omega,b,\xi} L(\omega,b,\alpha,\xi,\mu)即可得α\alpha的极大,即将上式代入对偶问题得
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \underbrace{…
  由于Cαiμi=0C-\alpha_i-\mu_i=0并且μi0\mu_i\geq0,即0αiC0\leq\alpha_i\geq{C},再对目标函数变号,即变成求极小值
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \underbrace{…
  上式便是线性支持向量机的软间隔最大化问题,与线性可分支持向量机的硬间隔最大化问题相比仅仅是多了一个约束条件0αiC0\leq\alpha_i\geq{C},即也可以通过SMO算法求出上式极小化对应的α\alpha,假设通过SMO算法得到了该α\alpha值记作α\alpha^*,即可根据α\alpha^*求得原始最优化问题的解ω\omega^*bb^*

  由于接下来的推导过程与线性可分支持向量机一样,不再赘述,值得说一句的是。《线性可分支持向量机》一文曾说道有多少个支持向量机则可能求出多少个bb^*,线性可分支持向量机中的bb^*都是一样的,可以不用处理;而线性支持向量机由于松弛因子的影响对于不同的支持向量bb^*是不同的,通常使用取均值的方法得到最终的bb^*

在这里插入图片描述

支持向量

硬间隔最大化支持向量

  硬间隔最大化中的支持向量比较简单,即满足yj(wxj+b)1=0y_j(w^*x_j+b)-1=0即可。《线性可分支持向量机》曾给出解释:由KKT互补条件可得对于α>0\alpha^*>0样本点(xj,yj)(x_j,y_j)yj(wxj+b)1=0y_j(w^*x_j+b)-1=0,并且间隔边界H1H_1H2H_2分别为wxj+b=1w^*x_j+b^*=1wxj+b=1w^*x_j+b^*=-1,即支持向量一定在间隔边界上。

  

软间隔最大化支持向量

  软间隔最大化的支持向量则由于对每个样本引入了松弛因子(xi,yi)(x_i,y_i)变得较为复杂。第ii个样本xix_i到对应类别支持向量的距离为ξiw{\frac{\xi_i}{||w||}},根据软间隔最大化时的KKT条件中的对偶互补条件αi(yi(wxi+b)1+ξi)=0{\alpha_i}^*(y_i(wx_i+b)-1+\xi_i)=0可得

  1. 如果αi=0{\alpha_i}^*=0,则ξi=0\xi_i=0,即样本在间隔边界上或者已经被正确分类,即下图中所有远离边界的点

  2. 如果0<αi<C0<{\alpha_i}^*<C,则ξi=0\xi_i=0,支持向量xix_i恰好落在间隔边界上,即下图中的两个支持向量

  3. 如果αi=C{\alpha_i}^*=C,说明这这可能是一个异常点,需要检查此时ξi\xi_i的情况

    1. 如果0<ξi<10<{\xi_i}<1,则点xix_i被正确分类,但是却在分离超平面和间隔边界之间,即下图中的点3
    2. 如果ξi=1\xi_i=1,则点xix_i在分离超平面上,即该点不能被正常分类
    3. 如果ξi>1\xi_i>1,则点xix_i位于分离超平面误分类一侧,即该点不能被正常分类,即下图中的点1和点2
# 软间隔最大化支持向量图例
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn import svm
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

np.random.seed(8)  # 保证数据随机的唯一性

# 构造线性可分数据点
array = np.random.randn(20, 2)
X = np.r_[array-[3, 3], array+[3, 3]]
y = [0]*20+[1]*20

# 建立svm模型
clf = svm.SVC(kernel='linear', C=10.0)
clf.fit(X, y)

# 构造等网个方阵
x1_min, x1_max = X[:, 0].min(), X[:, 0].max(),
x2_min, x2_max = X[:, 1].min(), X[:, 1].max(),
x1, x2 = np.meshgrid(np.linspace(x1_min, x1_max),
                     np.linspace(x2_min, x2_max))

# 得到向量w: w_0x_1+w_1x_2+b=0
w = clf.coef_[0]
# 加1后才可绘制 -1 的等高线 [-1,0,1] + 1 = [0,1,2]
f = w[0]*x1 + w[1]*x2 + clf.intercept_[0] + 1

# 绘制H2,即wx+b=-1
plt.contour(x1, x2, f, [0], colors='k', linestyles='--')

# 绘制分隔超平面,即wx+b=0
plt.contour(x1, x2, f, [1], colors='k')

# 绘制H1,即wx+b=1
plt.contour(x1, x2, f, [2], colors='k', linestyles='--')

# 绘制数据散点图
plt.scatter(X[0:20, 0], X[0:20, 1], cmap=plt.cm.Paired, marker='x')
plt.text(1, 1.8, s='支持向量', fontsize=10, color='gray',
         ha='center', fontproperties=font)

plt.scatter(X[20:40, 0], X[20:40, 1], cmap=plt.cm.Paired, marker='o')
plt.text(-1.5, -0.5, s='支持向量', fontsize=10,
         color='gray', ha='center', fontproperties=font)


# 绘制假设的异常点,**毫无意义的代码**,为了讲解用
plt.annotate(r'${\frac{\xi_1}{||w||}}$', xytext=(0.5, 2.8), xy=(-1.2, -2.2),
             arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), fontsize=20)
plt.scatter(-1.2, -2.2, marker='o', c='orange')

plt.annotate(r'${\frac{\xi_2}{||w||}}$', xytext=(1.8, 1.3), xy=(
    1.2, -1.5), arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), fontsize=20)
plt.scatter(1.2, -1.5, marker='o', c='orange')

plt.annotate(r'${\frac{\xi_3}{||w||}}$', xytext=(3, -0.2), xy=(
    3, -2), arrowprops=dict(arrowstyle="->", connectionstyle="arc3"), fontsize=20)
plt.scatter(3, -2, marker='o', c='orange')


plt.xlim(x1_min-1, x1_max+1)
plt.ylim(x2_min-1, x2_max+1)
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-O40P1bHn-1582896830486)(02-31%20%E7%BA%BF%E6%80%A7%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA_files/02-31%20%E7%BA%BF%E6%80%A7%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA_24_0.png)]

合页损失函数

在这里插入图片描述

  线性支持向量机还有另外一种解释,就是最小化以下目标函数
i=1m[1yi(wxi+b)]++λw2 \sum_{i=1}^m [1-y_i(wx_i+b)]_{+}+\lambda{||w||}^2
其中i=1m[1yi(wxi+b)]+\sum_{i=1}^m [1-y_i(wx_i+b)]_{+}被称为经验损失,既可以度量模型的好坏;λ\lambda是正则化项。

  其中函数L(y(wx+b))=[1yi(wxi+b)]+L(y(wx+b))=[1-y_i(wx_i+b)]_{+}称为合页损失函数(hinge loss function),下标++表示为
[z]+={zz>00z0 {[z]}_+ = \begin{cases} z \quad z>0 \\ 0 \quad z\leq0 \end{cases}
  也就是说,如果点被正确分类,即函数间隔yi(wxi+b)y_i(wx_i+b)大于1,即z0z\leq0,损失是0;否则损失是1yi(wxi+b)1-y_i(wx_i+b)。但是对于上图的点3被正确分类但是损失不是0,因此合页损失函数对学习有更高的要求。

  其实上述的目标函数等价于软间隔最大化的目标函数,即把[1yi(wxi+b)]+[1-y_i(wx_i+b)]_{+}看成ξi\xi_i,即上述的目标函数可以写成
minω,bi=1mξi+λω2 \underbrace{\min}_{\omega,b} \quad \sum_{i=1}^m\xi_i+\lambda{||\omega||}^2
如果取λ\lambda12C{\frac{1}{2C}},则
minω,b1C(12ω2+Ci=1mξi) \underbrace{\min}_{\omega,b} \quad {\frac{1}{C}}({\frac{1}{2}}{||\omega||}^2+C\sum_{i=1}^m\xi_i)
软间隔最大化的目标函数为
minω,b12ω2+Ci=1mξi \underbrace{\min}_{\omega,b} \quad {\frac{1}{2}}{||\omega||}^2+C\sum_{i=1}^m\xi_i

线性支持向量机流程

输入

  有mm个样本的线性可分训练集T={(x1,y1),(x2,y2),,(xm,ym)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\},其中xix_inn维特征向量,yiy_i为二元输出即值为11或者1-1

输出

  分离超平面的参数ww^*bb^*以及分类决策函数

流程

  1. 构造约束优化问题为
    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ & \underbrace{…
  2. 使用SMO算法求出上式最小时对应的α\alpha^*
  3. 计算ww^*
    w=i=1mαyixi w^* = \sum_{i=1}^m \alpha^*y_ix_i
  4. 找到所有的SS个支持向量,即满足0<αi<C0<{\alpha_i}^*<C的样本(xs,ys)(x_s,y_s),通过ys(i=1Sαiyixixs+b)1=0y_s(\sum_{i=1}^S{\alpha_i}^*y_ix_ix_s+b^*)-1=0计算出每个支持向量对应的bb^*,计算出这些所有的bb^*的平均值即为最终的b=1Si=1Sbb^*={\frac{1}{S}}\sum_{i=1}^Sb^*
  5. 求得分离超平面为
    wx+b=0 w^*x+b^* = 0
  6. 求得分类决策函数为
    f(x)=sign(wx+b) f(x) = sign(w^*x+b^*)
      线性支持向量机的步骤和线性可分支持向量机的步骤大致相同,由于线性支持向量机使用了松弛因子,两者之间最大的不同点在于对bb^*值的考虑。

线性支持向量机优缺点

优点

  1. 处理了异常点导致的数据集线性不可分问题

缺点

  1. 只支持二分类问题,对于多分类问题需要使用OvR等其他辅助方法
  2. 只解决了异常点造成的非线性数据的处理,未真正解决非线性数据的分类问题

小结

  线性支持向量机解决了最初的支持向量机的一个大问题,即无法处理原始问题,异常值会给模型的优化带来极大的麻烦,即会使得模型的最大间隔变窄,影响模型的性能。

  虽然线性支持向量机支持这种异常值导致的数据集线性不可分,但是他并没有从本质上解决线性支持向量机无法处理线性不可分的问题,接下来的核函数的使用将让支持向量机变成分类器模型中的王者,即非线性支持向量机。

在这里插入图片描述

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!