海森矩阵

海森矩阵介绍及其在机器学习、深度学习中的理解

瘦欲@ 提交于 2020-03-01 19:13:21
海森矩阵(Hessian Matrix) Hessian Matrix:二阶导和函数曲率 海森 & 机器学习 特征值、凸性和鞍点 Key Words: Hessian Matrix, second order derivatives, convexity, and saddle points 原文链接: Hessian, second order derivatives, convexity, and saddle points 翻译: Hessian Matrix:二阶导和函数曲率 回忆一下 f f f 的梯度 f : R n → R f:\mathbb{R}^n \rightarrow \mathbb{R} f : R n → R : f ′ ( x ) = [ δ f δ x 1 , δ f δ x 2 , ⋯   , δ f δ x n ] (1) f'(x) = [\frac{\delta f}{\delta x_1}, \frac{\delta f}{\delta x_2}, \cdots, \frac{\delta f}{\delta x_n} ]\tag{1} f ′ ( x ) = [ δ x 1 ​ δ f ​ , δ x 2 ​ δ f ​ , ⋯ , δ x n ​ δ f ​ ] ( 1 ) 求 f f f 的二阶导意味着,我们可以看到第 i i i

海森矩阵和半正定矩阵

折月煮酒 提交于 2019-12-10 04:17:56
多元函数的Hessian矩阵就类似一元函数的二阶导。 多元函数Hessian矩阵半正定就相当于一元函数二阶导非负,半负定就相当于一元函数二阶导非正。如果这个类比成立的话,凸函数的Hessian恒半正定就非常容易理解了——这是一元凸函数二阶导必非负的多元拓展。 至于为什么这个类是有道理的,你要这么看。对一元函数f(x)来说,就极值而言,一阶导为0是极值点的必要但不充分条件,一阶导为0切二阶导非负是极小值的充要条件。 为什么呢,因为有泰勒展开 。如果一阶导为0,二阶导非负,dx不论是多少,f(x)一定不比f(x0)小。 你把多元函数也个泰勒展开,主要区别在于: 1) 二阶导变成了Hessian。 2) 以前只要考虑x怎么变,现在还要考虑y怎么变,x和y怎么一起变,头疼了很多。 以二元为例, 从一元的情况类比过来,如果一阶导为0,是不是极小值完全取决于不同的dx, dy下,能不能做到最后一项一直非负。 只有对于任意 , 一直非负的情况,我们才能说这是极小值。如果 一直非正,这就是极大值。如果它一会正一会负,就是鞍点。 然后“对于任意 , 一直非负”这是啥?半正定的定义嘛!它就是这么引出来的,也是我们为什么需要半正定这个概念的原因 我们首先假设 函数在定义域上连续 函数在定义域上二阶可导 现在要证明的是: definition 1st-order condition 1st-order