xt1

D2L-pytorch版 Task07笔记

情到浓时终转凉″ 提交于 2020-02-27 10:45:59
优化算法进阶 1.Momentum 目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向仅仅取决于自变量当前位置,这可能会带来一些问题。对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。 g t = ∂ w 1 ∣ B t ∣ ∑ i ∈ B t f ( x i , w t − 1 ) = 1 ∣ B t ∣ ∑ i ∈ B t g i , t − 1 . \mathbf{g}_t = \partial_{\mathbf{w}} \frac{1}{|\mathcal{B}_t|} \sum_{i \in \mathcal{B}_t} f(\mathbf{x}_{i}, \mathbf{w}_{t-1}) = \frac{1}{|\mathcal{B}_t|} \sum_{i \in \mathcal{B}_t} \mathbf{g}_{i, t-1}. g t ​ = ∂ w ​ ∣ B t ​ ∣ 1 ​ i ∈ B t ​ ∑ ​ f ( x i ​ , w t − 1 ​ ) = ∣ B t ​ ∣ 1 ​ i ∈ B t ​ ∑ ​

笔记:时间序列相关问题

試著忘記壹切 提交于 2020-01-13 22:04:13
平稳性 平稳性定义 时间序列 X t X_t X t ​ 来自于一个概率分布,且满足: 1、 均值为与时间无关的常数; 2、方差是与时间无关的常数; 3、协方差至于时间间隔有关,与时间无关; 则称该随机时间序列是 平稳的 ,该随机过程是一个 平稳随机过程 。 白噪声 X t = μ t , μ ~ N ( 0 , σ 2 ) X_t=\mu_t,\qquad \mu ~N(0,\sigma^2) X t ​ = μ t ​ , μ ~ N ( 0 , σ 2 ) 这个序列称为 白噪声 ,由于具有相同的均值与方差,且协方差为零,满足以上定义,是平稳的。 随机游走 X t = X t − 1 + μ t X_t=X_{t-1}+\mu_t X t ​ = X t − 1 ​ + μ t ​ 该序列有相同的均值。但是方差呢?我们递推可得: X t = X 0 + μ 1 + . . . + μ t X_t=X_0+\mu_1+...+\mu_t X t ​ = X 0 ​ + μ 1 ​ + . . . + μ t ​ 则Var ( X t ) = t σ 2 (X_t)=t\sigma^2 ( X t ​ ) = t σ 2 ,故非平稳。 但是可以取差分得到平稳序列: Δ X t = X t − X t − 1 = μ t \Delta X_t=X_t-X_{t-1}=\mu_t Δ

梯度下降法的优化算法

泄露秘密 提交于 2020-01-11 22:03:06
如前文 梯度下降法 中所介绍的,梯度下降法存在如下问题导致其迭代的可行性和效率大打折扣: (1)梯度不存在; (2)非凸函数的鞍点和局部最优解; (3)函数的信息利用率不高; (4)学习率需预设且取值固定。 本文提到的梯度下降法的优化算法指:针对问题(2)、(3)和(4)提出的基于梯度下降法的Moment、AdaGrad和Adam等一系列算法。而这系列算法的核心改良思路包括两点: (1)通过引入历史迭代点的信息,对当前点的梯度值进行修正。 (2)通过引入历史迭代点的信息,对当前点的学习率进行修正。 1. 常见的梯度下降法的优化算法 1.1. SGD+Momentum Momentum(动量)的灵感和效果非常类似于物理学里的动量项:如果迭代点在梯度为0处保持一定的速度(动量),则很有可能会冲破局部最优点或鞍点的束缚进行继续的搜索,从而发现更优的取值。 那么如何设置动量项呢? 通过过往迭代点的历史梯度信息值进行构造! 从数学公式上看,其迭代过程为: v 0 = 0 v t = ρ v t − 1 − α g t − 1 x t = x t − 1 + v t \begin{aligned}&v_0=0\\&v_t=\rho v_{t-1}-\alpha g_{t-1}\\&x_t=x_{t-1}+v_t\end{aligned} ​ v 0 ​ = 0 v t ​ = ρ v t −

机器学习中的隐马尔科夫模型(HMM)详解

﹥>﹥吖頭↗ 提交于 2019-12-06 14:30:48
前导性推荐阅读资料: 从朴素贝叶斯分类器到贝叶斯网络(上) 从朴素贝叶斯分类器到贝叶斯网络(下) 欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji ,为保证公式、图表得以正确显示,强烈建议你从该地址上查看原版博文。本博客主要关注方向包括:数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、自然语言处理。 引言 在之前介绍贝叶斯网络的博文中,我们已经讨论过概率图模型(PGM)的概念了。Russell等在文献【1】中指出:“在统计学中,图模型这个术语指包含贝叶斯网络在内的比较宽泛的一类数据结构。” 维基百科中更准确地给出了PGM的定义:“A graphical model or probabilistic graphical model is a probabilistic model for which a graph expresses the conditional dependence structure between random variables. ” 如果你已经掌握了贝叶斯网络,那么你一定不会对PGM的概念感到陌生。本文将要向你介绍另外一种类型的PGM,即隐马尔可夫模型(HMM,Hidden Markov Model)。更准确地说,HMM是一种特殊的贝叶斯网络。 一些必备的数学知识 随机过程