线性空间

攀登传统机器学习的珠峰-SVM (中)

雨燕双飞 提交于 2019-11-30 12:21:36
关于软间隔SVM和非线性SVM,在学习过程中,估计有很多入门的同学会好奇软间隔和硬间隔的区别有没有更合理的解释?软间隔中引入的松弛变量到底是什么?软间隔的优化函数和硬间隔的优化函数化简之后,为什么长得这么类似?有没有更形象的方式来划分软间隔中的支持向量,噪声点和误分类的点?软间隔SVM的代价函数,硬间隔SVM的代价函数和合页损失函数是一致的吗?以及核函数是个什么玩意?核函数的优点到底怎么解释? 下面我将用EM算法的思想去解释软间隔和硬间隔的区别,并用通俗易懂的语言解释松弛变量的几何含义,以及系数C对支持变量的影响。用一张图解释软间隔是怎样区分支持向量,噪声点和误分类的点。对软间隔SVM的代价函数,硬间隔SVM的代价函数和合页损失函数的一致性进行了推导。 之后对特征空间和核函数的核心idea进行了阐述,并分析了核函数的形式来历和那句让人捉摸不透的优点。最后简要介绍了一下几个重要的核函数。 由于文章当中包含很多自己理解的部分,如有不当之处,请多多指正!!! 线性分类SVM面临的问题 在上次课中,我们对线性可分SVM的算法的原理和流程进行了总结,如下图所示,为线性可分的数据集,我们可以采用线性可分的支持向量机,也称为硬间隔支持向量机。 当数据集中参杂了一些噪声,如下图所示,由于参杂了一个红色的噪声点,导致模型学习到的决策边界由下图中的粗虚线移动到了粗实线。 Q1

Linux内存描述之高端内存–Linux内存管理(五)

那年仲夏 提交于 2019-11-30 05:52:49
服务器体系与共享存储器架构 日期 内核版本 架构 作者 GitHub CSDN 2016-06-14 Linux-4.7 X86 & arm gatieme LinuxDeviceDrivers Linux内存管理 http://blog.csdn.net/vanbreaker/article/details/7579941 #1 前景回顾 前面我们讲到 服务器体系(SMP, NUMA, MPP)与共享存储器架构(UMA和NUMA) #1.1 UMA和NUMA两种模型 共享存储型多处理机有两种模型 均匀存储器存取(Uniform-Memory-Access,简称UMA)模型 非均匀存储器存取(Nonuniform-Memory-Access,简称NUMA)模型 UMA模型 物理存储器被所有处理机均匀共享。所有处理机对所有存储字具有相同的存取时间,这就是为什么称它为均匀存储器存取的原因。每台处理机可以有私用高速缓存,外围设备也以一定形式共享。 NUMA模型 NUMA模式下,处理器被划分成多个"节点"(node), 每个节点被分配有的本地存储器空间。 所有节点中的处理器都可以访问全部的系统物理存储器,但是访问本节点内的存储器所需要的时间,比访问某些远程节点内的存储器所花的时间要少得多。 ##1.2 Linux如何描述物理内存 Linux把物理内存划分为三个层次来管理 层次 描述

SVM学习总结

Deadly 提交于 2019-11-29 11:55:45
目录 一、SVM学习回顾 1 线性可分支持向量机与硬间隔最大化 1.1 线性可分支持向量机 1.2 函数间隔和几何间隔 1.3 间隔最大化 (1) 最大间隔分离超平面 (2) 支持向量和间隔边界 1.3 学习的对偶算法 2 线性支持向量机与软间隔最大化 2.1 线性支持向量机 2.2 学习的对偶算法 2.3 支持向量 2.4 合页损失函数 3 非线性支持向量机与核函数 3.1 核技巧 (1) 非线性分类问题 (2) 核函数的定义 (3) 核技巧在支持向量机中的应用 3.2 正定核 3.3 常用核函数 3.4 非线性支持向量机 4 序列最小最优化算法 二、补充 备注 备注1 凸二次规划 备注2 拉格朗日对偶性和KKT条件 备注3 为什么要转化为对偶问题求解 备注4 欧式空间和希尔伯特空间 其他问题 为什么高斯核可以将原始维度映射到无穷维 线性可分SVM、线性SVM和非线性SVM三者的b是否唯一 前言 第一次写博客,有不好的地方请各位多加指教;之前对SVM进行了一些学习,每次学习的时候又感觉很多东西都忘掉了;之前暑假的时候又进行了一次较为详细的学习,想着记录一下,一些笔记也都准备好了,由于若干原因(主要是拖延症晚期)一直拖到现在;本次总结主要是以李航老师的统计学习方法为参考,对书中的思路做一个梳理(因此想要了解或者回顾SVM的话,本文会有一点帮助,如果想仔细学习的话还是要结合

线性代数的直观理解 -- Intuition in Linear Algebra

北慕城南 提交于 2019-11-29 10:47:56
受《理解线性代数》启发,结合自身学习的经验,直观的总结我对线性代数的理解。强调直观是因为在这里不纠缠于数学的严谨性,所以如果追求数学严谨性和证明的还是去看教材比较好。 统计的目标是对数表内各种数据进行挖掘从而找出隐含其中的关系,线性代数为统计提供了对数表的表达方式和对数表进行处理的工具。 在初等数学中我们学过函数,用来表示的数据之间一种确定的关系,给定x一定能算出唯一的y。但现实中我们遇到的数据可就没有那么明确的联系了,我们不知道谁和谁有联系,甚至不知道是不是存在联系。因此我们急需一种框架来帮助我们处理这些”不好看”的数据。统计就是为了处理数据而生的,它的目标即挖掘出数据之间的联系,从而抽象出数学模型来做解释或预测。 先来扯句题外话,我们知道数学的本质是抽象。那究竟什么是抽象?抽象就是从不同个体中找相同,这些相同也就是规律和关系。初等数学中学到的函数关系就是一种规律,无论x到底是什么值,它和y之间都存在这样的规律。这也是为什么说数学模型都是错的,但却是有用的原因。抽象忽略了个体差异,只留相同点,利用相同点我们能处理满足此相同点的任何差异个体。 言归正传。回忆下中学解析几何或者大学微积分时我们是如何处理数据的: 我们会把函数f(x)映射到欧几里得空间内笛卡尔坐标系做visualization。在代数上对函数的操作等价于对欧几里得空间中相应函数图像做操作。函数是确定的关系

泛函四大定理:

荒凉一梦 提交于 2019-11-28 16:29:32
开映射定理和闭图像定理及其应用 - dhchen 的文章 - 知乎 https://zhuanlan.zhihu.com/p/28093420 泛函分析随记(一)Hahn-Banach定理 - 陆艺的文章 - 知乎 https://zhuanlan.zhihu.com/p/53079862 hahn banach延拓定理里的一小步? - 知乎 https://www.zhihu.com/question/263942231 小完结:Hahn-Banach定理及其应用 - dhchen的文章 - 知乎 https://zhuanlan.zhihu.com/p/28496285 泛函分析在经济领域有什么应用吗? - 知乎 https://www.zhihu.com/question/31913447 泛函分析在经济学中的作用有以下几点: 1.价格体系本身是商品空间上的一个线性泛函,利用Hahn-Banach定理我们可以非常容易地证明福利经济学第二定理。 2.要想 严格 地掌握最优控制,需要泛函分析的基础。只是单纯应用的话倒不必要,但是我还是强烈建议经济学的博士生应该掌握Banach空间的微分学,这不光是变分法的问题,而且涉及到经济学很多常用的非线性动力学问题。 对于随机最优控制问题,我们一般有随机Pontryagin最大值原理和Hamilton-Jacobi

SVM 核函数

坚强是说给别人听的谎言 提交于 2019-11-28 08:11:03
4、核函数: 在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。 而在我们遇到核函数之前,如果用原始的方法,那么在用线性学习器学习一个非线性关系,需要选择一个非线性特征集,并且将数据写成新的表达形式,这等价于应用一个固定的非线性映射,将数据映射到特征空间,在特征空间中使用线性学习器,因此,考虑的假设集是这种类型的函数: 这里ϕ:X->F是从输入空间到某个特征空间的映射,这意味着建立非线性学习器分为两步: 首先使用一个非线性映射将数据变换到一个特征空间F, 然后在特征空间使用线性学习器分类。 核函数:如何处理非线性数据 来看个核函数的例子。如下图所示的两类数据,分别分布为两个圆圈的形状,这样的数据本身就是线性不可分的,此时咱们该如何把这两类数据分开呢(下文将会有一个相应的三维空间图)? 事实上,上图所述的这个数据集,是用两个半径不同的圆圈加上了少量的噪音生成得到的,所以,一个理想的分界应该是一个“圆圈”而不是一条线(超平面)。如果用 和 来表示这个二维平面的两个坐标的话,我们知道一条二次曲线(圆圈是二次曲线的一种特殊情况)的方程可以写作这样的形式: 注意上面的形式,如果我们构造另外一个五维的空间,其中五个坐标的值分别为 , , , , ,那么显然

线性代数之——线性相关性、基和维数

拈花ヽ惹草 提交于 2019-11-28 04:28:04
1. 线性相关性 矩阵 \(A\) 的列是 线性不相关的 当且仅当 \(Ax=\boldsymbol0\) 的唯一解是 \(x=\boldsymbol0\) 。没有其它的线性组合能给出零向量。 在三维空间中,如果三个向量 \(v_1, v_2, v_3\) 不在同一个平面中,那它们就是不相关的,只有 \(0v_1+0v_2+0v_3\) 能给出零向量。如果三个向量 \(v_1, v_2, v_3\) 位于同一个平面中,那它们就是相关的。 一系列向量 \(v_1, v_2\cdots v_n\) 是 线性不相关的 当且仅当给出零向量的唯一线性组合是 \(0v_1+0v_2\cdots +0v_n\) 。 如果一个线性组合给出零向量,但不是所有的系数都为零,那么它们就是相关的。 矩阵 \(A\) 的列是 线性不相关的 当且仅当其秩 \(r=n\) 。这时候有 \(n\) 个主元没有自由变量,零空间中只有一个零向量。 假设在一个矩阵有 5 列,每一列都属于 \(R^3\) ,那它们肯定是线性相关的。因为矩阵最多有 3 个主元,那就意味着至少有 5-3=2 个自由变量。 如果 \(n>m\) ,那么在 \(R^m\) 中的 \(n\) 个向量一定是线性相关的。 一系列向量可以扩充出(span)一个空间如果它们的线性组合填满了这个空间。列空间就是所有的列扩充出的子空间。

Linux的分段和分页机制

邮差的信 提交于 2019-11-28 03:09:38
1.分段机制 80386的两种工作模式   80386的工作模式包括实地址模式和虚地址模式(保护模式)。Linux主要工作在保护模式下。 分段机制   在保护模式下,80386虚地址空间可达16K个段,每段大小可变,最大达4GB。   从逻辑地址到线性地址的转换由80386分段机制管理。段 寄存器CS、DS、ES、SS、FS或GS标识一个段。这些段寄存器作为段选择器,用来选择该段的描述符。 分段逻辑地址到线性地址转换图 图9_7 分段逻辑地址到线性地址转换图 2. 分页机制 分页机制的作用   分页机制是在段机制之后进行的,它进一步将线性地址转换为物理地址。   80386使用4K字节大小的页,且每页的起始地址都被4K整除。因此,80386把4GB字节线性地址空间划分为1M个页面,采用了两级表结构。 两级页表   两级表的第一级表称为页目录,存储在一个4K字节的页中,页目录表共有1K个表项,每个表项为4个字节,线性地址最高的10位(22-31)用来产生第一级表索引,由该索引得到的表项中的内容定位了二级表中的一个表的地址,即下级页表所在的内存块号。 第二级表称为页表,存储在一个4K字节页中,它包含了1K字节的表项,每个表项包含了一个页的物理地址。二级页表由线性地址的中间10位(12-21)位进行索引,定位页表表项,获得页的物理地址

[转]无处不在的线性分解

五迷三道 提交于 2019-11-27 06:23:13
转自:Dahua的博客 http://dahuasky.wordpress.com/2008/10/02/%e6%97%a0%e5%a4%84%e4%b8%8d%e5%9c%a8%e7%9a%84%e7%ba%bf%e6%80%a7%e5%88%86%e8%a7%a3/ 深刻的思想往往蕴含在简单的数学形式之中。从小至今,对数学的学习一直不断,所学愈多,愈深感现代数学之博大,自己根基之薄弱。在自己所接触的数学之中,各种定理公式纷繁复杂,然细思之下,其核心思想却是非常简洁,但却广泛地以不同形式体现在各个分支之中。事实上,很多不同的数学分支在用自己本领域的语言阐述着一些共同的数学原理。 有三个基本的思想,在我所学到的数学中被普遍的运用:分解,逼近,变换。 分解(decomposition),是和合成(Integration)相互相承的。这里所说的分解思想,其实包括了三个阶段:首先,把一个一般对象,分解成简单对象的组合;然后,对每个简单对象分别加以分析和处理;最后把结果合成为对于原对象的结果。在不同的数学分支里面,分解的形式很不一样,后文中再详述。 逼近(approximation),就是构造简单对象的序列趋近一般对象,并通过这些简单对象的处理和分析结果来逼近一般对象的结果。这种思想在分析(Analysis)主要以极限(limit)的形式存在,是整个分析的根本。在不同的context里面

linux内存

两盒软妹~` 提交于 2019-11-27 05:27:25
1 内存寻址 1.1 物理地址、虚拟地址以及线性地址 物理地址: 物理内存的内存单元地址 虚拟地址: 程序员看到的内存空间定义未虚拟地址,intel X86 CPU寻址使用了段机制,最初的8086中有4个16位的段寄存器:CS、DS、SS、ES,分别用于存放可执行代码的代码段、数据段、堆栈段和其他段的基地址,解决了CPU数据总线16位寻址20位数据地址空间的问题。 虚拟地址一般用“段:偏移量”的形式来描述,比如在8086中A815:CF2D就代表段首地址为A815,段内偏移位为CF2D的虚地址。 线性地址: 是指一段连续的,不分段的,范围为0到4GB的地址空间,一个线性地址就是线性地址空间的一个绝对地址。 寻址模式有2种: 实模式: 是 段地址+偏移量 的方式,得到物理地址;如当程序执行“mov ax,[1024]”这样一条指令时,在8086的实模式下,把某一段寄存器(比如ds)左移4位,然后与16位的偏移量(1024)相加后被直接送到内存总线上,这个相加后的地址就是内存单元的物理地址,而程序中的地址(例如ds:1024)就叫虚拟地址 保护模式:不 允许通过段寄存器取值得到段的起始地址,而是把虚拟地址转进一个 MMU 的硬件,经过额外的转换和检查,进而得到一个物理地址,如下图所示: 保护模式下寻址 MMU是一种硬件电路,它包含两个部件,一个是分段部件,一个是分页部件