自变量 | 易学教程

深度学习---动量法

阅读更多关于深度学习---动量法

损失函数有关自变量的梯度代表了损失函数在自变量当前位置下降最快的方向。因此，梯度下降也叫作最陡下降。在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度更新自变量，然而，如果自变量的迭代方向仅仅取决于自变量当前位置，可能会带来一些问题。例如：损失函数为 f ( x ) = 0.1 x 1 2 + 2 x 2 2 f(x)=0.1x_1^2 + 2x_2^2 f ( x ) = 0 . 1 x 1 2 + 2 x 2 2 该函数在 x 1 , x 2 x_1,x_2 x 1 , x 2 的斜率相差较大，如果给定学习率，梯度下降迭代自变量时，会使自变量在 x 2 x_2 x 2 比在 x 1 x_1 x 1 的移动幅度更大，可能会越过最优解；如果降低学习率，会造成在 x 1 x_1 x 1 方向上朝最优解移动缓慢，收敛速度变慢。动量法动量法的提出就是为了解决上述问题。设损失函数在时间步t的小批量随机梯度为 g t g_t g t ，时间步 t t t 的自变量为 x t x_t x t ，学习率为 η t \eta_t η t 。在时间步0，动量法创建速度变量 v 0 v_0 v 0 ，并将其初始化为0。在时间 t > 0 t>0 t > 0 ，动量法对每次迭代的步骤做如下修改： v t ← γ v t − 1 + η t g

PLS系列002之多因变量线性PLS

阅读更多关于 PLS系列002之多因变量线性PLS

多因变量线性偏最小二乘法 1 多因变量线性PLS 1.1 算法设计思想 1.2 计算推导 1.3 PLS性质 1.4 交叉性检验 Reference 1 多因变量线性PLS 在多元线性回归模型中，若一组自变量 X = ( x 1 , x 2 , x 3 , ⋯ , x i , ⋯ x p ) X=({{x}_{1}},{{x}_{2}},{{x}_{3}},\cdots ,{{x}_{i}},\cdots {{x}_{p}}) X = ( x 1 , x 2 , x 3 , ⋯ , x i , ⋯ x p ) 和一组因变量 Y = { y 1 , y 2 , y 3 , ⋯ , y j , ⋯ , y q } Y=\{{{y}_{1}},{{y}_{2}},{{y}_{3}},\cdots ,{{y}_{j}},\cdots ,{{y}_{q}}\} Y = { y 1 , y 2 , y 3 , ⋯ , y j , ⋯ , y q } ，当数据样本满足高斯-马尔科夫假设条件时，由least squares(最小二乘)有: Y ^ = ( X T X ) − 1 X T Y \hat{Y}={{({{X}^{T}}X)}^{-1}}{{X}^{T}}Y Y ^ = ( X T X ) − 1 X T Y ，其中 Y ^ \hat

聚类与判别总结

阅读更多关于聚类与判别总结

聚类与判别方差分析使用类别自变量和连续数因变量，而判别分析连续自变量和类别因变量（即类标签）启发式方法： K-mean 和 k-medoid 算法 k-means ：每个群集由群集的中心表示 K-medoid 或 PAM( 围绕 medoid 的分区 ) ：每个集群由集群中的一个对象表示 ============================================ K-Mean 就是在已知要分为 4 类之后，将 K=4 ，随便找到 4 个点，计算每个原始点的到这四个点中心的距离，选择距离最近的点归类，这就有 4 类点，再在这些点内部计算每一点的质心，这就有了新的 4 个点，再对所有点计算到这四个点的距离，然后比较，以此类推。处理数值数据 ======================================================== L-medoid 聚类方法即若 K=2 ，则选择原始数据中的某两个点作为原始 medoids ，计算每个点到该点的距离，形成两个簇，再选择一个非之前的点作为 medoid ，如果花费得到改善则将 medoid 值替换为改点，如果没有得到改善则不变。处理分类数据对 PAM 的评论在存在噪声和异常值的情况下， pam 比 k 均值更健壮，因为 Medoid 受异常值或其他极值的影响小于 k-means 。因为

海森矩阵和半正定矩阵

阅读更多关于海森矩阵和半正定矩阵

多元函数的Hessian矩阵就类似一元函数的二阶导。多元函数Hessian矩阵半正定就相当于一元函数二阶导非负，半负定就相当于一元函数二阶导非正。如果这个类比成立的话，凸函数的Hessian恒半正定就非常容易理解了——这是一元凸函数二阶导必非负的多元拓展。至于为什么这个类是有道理的，你要这么看。对一元函数f(x)来说，就极值而言，一阶导为0是极值点的必要但不充分条件，一阶导为0切二阶导非负是极小值的充要条件。为什么呢，因为有泰勒展开。如果一阶导为0，二阶导非负，dx不论是多少，f(x)一定不比f(x0)小。你把多元函数也个泰勒展开，主要区别在于： 1) 二阶导变成了Hessian。 2) 以前只要考虑x怎么变，现在还要考虑y怎么变，x和y怎么一起变，头疼了很多。以二元为例，从一元的情况类比过来，如果一阶导为0，是不是极小值完全取决于不同的dx, dy下，能不能做到最后一项一直非负。只有对于任意 , 一直非负的情况，我们才能说这是极小值。如果一直非正，这就是极大值。如果它一会正一会负，就是鞍点。然后“对于任意 , 一直非负”这是啥？半正定的定义嘛！它就是这么引出来的，也是我们为什么需要半正定这个概念的原因我们首先假设函数在定义域上连续函数在定义域上二阶可导现在要证明的是： definition 1st-order condition 1st-order

逐步回归法(Stepwise regression)学习

阅读更多关于逐步回归法(Stepwise regression)学习

转载自http://www.lizenghai.com/archives/524.html 搜索逐步回归法相关的资料信息，找到一片逐步回归法的学习笔记,比较详细的讲了逐步回归法的三种操作方式，个人倾向于第三种方式。在第三种方式下，不但考虑了新增因子的解释能力同时也考虑了新增因子后已存在因子的解释能力，最终等于将所有因子中不适宜的因子剔除，留下有效因子。这是解决多因子的多重共线性的有效办法。原文内容（连接在文尾）：之前在 SPSS 中的回归分析算法中发现，在它里面实现的算法有 Enter 和 Stepwise 两种。Enter 很容易理解，就是将所有选定的自变量一起放入模型中，直接去计算包含所有自变量的整个模型能够解释多少因变量中的变异，以及各个自变量单独的贡献有多少。但对 Stepwise regression 的理解总是很模糊，今天仔细查了一下，做下笔记。与平时所说的 regression analysis 不太相同，stepwise regression 可以算是一种 feature extraction 的方法。举个例子，假如我们的数据中有一个因变量，但却有十几或几十个自变量。为了便于对变量数过多的数据进行处理，避免 “curse of dimensionality” 中可能出现的种种问题，我们总是会对数据进行降维，根据在特定领域中的知识或是理论假设

[04-00]单变量线性回归问题

阅读更多关于 [04-00]单变量线性回归问题

系列博客，原文在笔者所维护的github上： https://aka.ms/beginnerAI ，点击star加星不要吝啬，星越多笔者越努力。第4章单入单出的单层神经网络 4.0 单变量线性回归问题 4.0.1 提出问题在互联网建设初期，各大运营商需要解决的问题就是保证服务器所在的机房的温度常年保持在23摄氏度左右。在一个新建的机房里，如果计划部署346台服务器，我们如何配置空调的最大功率？这个问题虽然能通过热力学计算得到公式，但是总会有误差。因此人们往往会在机房里装一个温控器，来控制空调的开关或者风扇的转速或者制冷能力，其中最大制冷能力是一个关键性的数值。更先进的做法是直接把机房建在海底，用隔离的海水循环降低空气温度的方式来冷却。通过一些统计数据（称为样本数据），我们得到了表4-1。表4-1 样本数据样本序号服务器数量(千台)X 空调功率(千瓦)Y 1 0.928 4.824 2 0.469 2.950 3 0.855 4.643 ... ... ... 在上面的样本中，我们一般把自变量X称为样本特征值，把因变量Y称为样本标签值。这个数据是二维的，所以我们可以用可视化的方式来展示，横坐标是服务器数量，纵坐标是空调功率，如图4-1所示。图4-1 样本数据可视化通过对上图的观察，我们可以判断它属于一个线性回归问题，而且是最简单的一元线性回归。于是

关于相关系数

阅读更多关于关于相关系数

在回归方程中：未标准话的系数表示的是自变量变化一个单位，因变量的变化程度。标准化的系数表示自变量之间已经没有单位，回归系数可以直接比较大小了，而未标准化的系数则不能够比较大小。上式中x与y的方差都是标量所以可以提进E（）内。可以看出相关系数r其实是自变量与因变量的Z分数之间的协方差来源： https://www.cnblogs.com/zijidefengge/p/11938183.html

【R语言学习笔记】Day2 线性回归与CART回归树的应用及对比

阅读更多关于【R语言学习笔记】Day2 线性回归与CART回归树的应用及对比

1. 目的：根据房子信息，判断博士顿地区的房价。 2. 数据来源：论文《Hedonic housing prices and the demand for clean air》，数据中共含506个观测值，及16个变量。其中，每个观测值代表一个人口普查区。 boston <- read.csv("boston.csv") # 读取文件 str(boston) # 查看数据结构　 3. 变量介绍：（1）town：每一个人口普查区所在的城镇（2）LON: 人口普查区中心的经度（3）LAT: 人口普查区中心的纬度（4）MEDV: 每一个人口普查区所对应的房子价值的中位数 (单位为$1000) （5）CRIM: 人均犯罪率（6）ZN: 土地中有多少是地区是大量住宅物业（7）INDUS: 区域中用作工业用途的土地占比（8）CHAS: 1：该人口普查区紧邻查尔斯河；0：该人口普查区没有紧邻查尔斯河（9）NOX: 空气中氮氧化物的集中度 (衡量空气污染的指标) （10）RM: 每个房子的平均房间数目（11）AGE: 建于1940年以前的房子的比例（12）DIS: 该人口普查区距离波士顿市中心的距离（13）RAD: 距离重要高速路的远近程度 (1代表最近；24代表最远) （14）TAX: 房子每$10,000价值所对应的税收金额（15）PTRATIO:

统计学基础之回归分析

阅读更多关于统计学基础之回归分析

目录：（来源：百度百科等）一、一元线性回归二、多元线性回归一、一元线性回归　　一元线性回归是分析只有一个自变量（自变量x和因变量y）线性相关关系的方法。一个经济指标的数值往往受许多因素影响，若其中只有一个因素是主要的，起决定性作用，则可用一元线性回归进行预测分析。回归分析是研究某一变量（因变量）与另一个或多个变量（解释变量、自变量）之间的依存关系，用解释变量的已知值或固定值来估计或预测因变量的总体平均值。　　一元线性回归分析预测法，是根据自变量x和因变量Y的相关关系，建立x与Y的线性回归方程进行预测的方法。由于市场现象一般是受多种因素的影响，而并不是仅仅受一个因素的影响。所以应用一元线性回归分析预测法，必须对影响市场现象的多种因素做全面分析。只有当诸多的影响因素中，确实存在一个对因变量影响作用明显高于其他因素的变量，才能将它作为自变量，应用一元相关回归分析市场预测法进行预测。预测模型为：式中， x t 代表t期自变量的值；建立模型： 1、选取一元线性回归模型的变量； 2、绘制计算表和拟合散点图； 3、计算变量间的回归系数及其相关的显著性； 4、回归分析结果的应用模型的检验： 1、经济意义检验：就是根据模型中各个参数的经济含义，分析各参数的值是否与分析对象的经济含义相符； 2、回归标准差检验； 3、拟合优度检验； 4、回归系数的显著性检验。（待完善） 1

二分类Logistic回归模型

阅读更多关于二分类Logistic回归模型

　　Logistic回归属于概率型的非线性回归，分为二分类和多分类的回归模型。这里只讲二分类。　　对于二分类的Logistic回归，因变量y只有“是、否”两个取值，记为 1和0 。这种值为0/1的二值品质型变量，我们称其为二分类变量。　　假设在自变量$x_{1}, x_{2}, \cdots, x_{p}$作用下，y取“是”的概率是p，则取“否”的概率是1-p，研究的是当y取“是”发生的模率p与自变量$x_{1}, x_{2}, \cdots, x_{p}$的关系。 Logistic回归模型 ①Logit变换　　 Logit 变换以前用于人口学领域，1970年被Cox引入来解决曲线直线化问题。　　通常把某种结果出现的概率与不出现的概率之比称为称为事件的优势比odds ，即假设在p个独立自变量$x_{1}, x_{2}, \cdots, x_{p}$作用下，记y取1的概率是$p=P(y=1 | X)$，取0概率是$1-p$，取1和取0的概率之比为$\frac{p}{1-p}$。Logit变换即取对数：$$\lambda = \ln ({\rm{ odds }}) = \ln \frac{p}{{1 - p}}$$ ②Logistic函数　　 Logistic中文意思为“逻辑”，但是这里，并不是逻辑的意思，而是通过logit变换来命名的。　

订阅自变量