方差

Convolutional Sequence to Sequence Learning 论文笔记

三世轮回 提交于 2019-12-04 20:23:42
Convolutional Sequence to Sequence Learning 论文笔记 目录 简介 Position Embeddings GLU or GRU Convolutional Block Structure Multi-step Attention Normalization Strategy Initialization 简介 # 写这篇博客主要是为了进一步了解如何将CNN当作Encoder结构来使用,同时这篇论文也是必看的论文之一。该论文证明了使用CNN作为特征抽取结构实现Seq2Seq,可以达到与 RNN 相接近甚至更好的效果,并且CNN的高并行能力能够大大减少我们的模型训练时间(本文对原文中不清晰的部分做了梳理,建议与原文搭配服用) 原文链接: Convolutional Sequence to Sequence Learning 模型结构如下图所示: 下面对模型的每个部分进行分块介绍: Position Embeddings # 卷积网络和Transformer一样,不是类似于RNN的时序模型,因此需要加入位置编码来体现词与词之间的位置关系 样本输入的词向量: w = ( w 1 , w 2 , . . . , w n ) w=(w1,w2,...,wn) 样本位置编码: p = ( p 1 , p 2 , . . . , p n ) p=(p1

[洛谷P4072] SDOI2016 征途

我的未来我决定 提交于 2019-12-04 18:39:21
问题描述 Pine开始了从S地到T地的征途。 从S地到T地的路可以划分成n段,相邻两段路的分界点设有休息站。 Pine计划用m天到达T地。除第m天外,每一天晚上Pine都必须在休息站过夜。所以,一段路必须在同一天中走完。 Pine希望每一天走的路长度尽可能相近,所以他希望每一天走的路的长度的方差尽可能小。 帮助Pine求出最小方差是多少。 设方差是v,可以证明, \(v\times m^2\) 是一个整数。为了避免精度误差,输出结果时输出 \(v\times m^2\) 。 输入格式 第一行两个数 n、m。 第二行 n 个数,表示 n 段路的长度 输出格式 一个数,最小方差乘以 \(m^2\) 后的值 。 样例输入 5 2 1 2 5 8 6 样例输出 36 说明 对于 \(30\%\) 的数据, \(1 \le n \le 10\) 。 对于 \(60\%\) 的数据, \(1 \le n \le 100\) 。 对于 \(100\%\) 的数据, \(1 \le n \le 3000\) 。 保证从 S 到 T 的总路程不超过 30000 。 解析 首先,我们需要化简方差的式子, \[ \begin{align}s^2 &=\frac{\sum_{i=1}^{m}(\overline v-v_i)^2}{m}\\ &=\frac{m\overline v^2-2

文献阅读 - MonoLoco与关于Camera Matrix的笔记

牧云@^-^@ 提交于 2019-12-04 14:14:13
目录 概览 HighLights Camera Intrinsic Matrix 笔记 Intrinsic Matrix Task-Error - 不确定性任务下确界的计算 输出假设的Laplace分布 Geometric Baseline 基于纯几何学的参照方法 公式总结 概览 近日在阅读"MonoLoco: Monocular 3D Pedestrian Localization and Uncertainty Estimation"文献,旨在解决 定位图像中行人位置(本质上只预测距离) ,文献主要采用基于开源框架提取 单目视觉图像中 的人体骨架信息,再通过轻量级的全连接神经网络对行人的方位进行预测,并对方位预测的不确定度进行了评估和可视化。 HighLights task-error:task-error是一种确定的不确定性,是由于任务抽象时对有关因素忽略而导致的不可消除误差,可被作为不确定度的 下界 。本文中,基于距离和身高的三角形相似性原理和欧洲人口身高的高斯分布假设,求解了 定位误差(米)的task-error作为不确定判断的下界 。 输出假设的Laplace分布:使用Laplace分布替代高斯分布作为计算数据不确定性(aleatoric uncertainty)的分布,其优势是 基于距离比的分布计算,使得预测对象无论远近,误差都能被合理考虑 ,问题在于

吴恩达《深度学习》第二门课(1)深度学习的实用层面

狂风中的少年 提交于 2019-12-04 13:47:18
1.1训练,验证,测试集(Train/Dev/Test sets) (1)深度学习是一个按照下图进行循环的快速迭代的过程,往往需要多次才能为应用程序找到一个称心的神经网络。 (2)在机器学习中,通常将样本分成训练集,验证集和测试集三部分,数据规模相对较小,适合传统的划分比例(如6:2:2),数据集规模比较大的,验证集和测试集要小于数据总量的20%或者10%甚至更低。 (3)交叉验证集和测试集务必来自同分布。 (4)有时候只有训练集和验证集,没有独立的测试集(将无法提供无偏性能评估),这时人们也会把验证集称为测试集。 1.2偏差,方差(Bias/Varicance) (1)以下三个图分别表示欠拟合(高偏差),适度拟合,过拟合(高方差): (2)最优误差也称为贝叶斯误差,本节中假设最有误差为零(如在图像分类中人可以辨别出所有图像的类别)。 (3)训练误差减去左右误差为偏差,结果大说明偏差大;验证集误差减去训练误差为方差,结果大说明偏差大。 (4)是存在高偏差高方差的情况的,如下图,直线导致高偏差,局部过拟合导致高方差: 1.3机器学习基础 (1)偏差和方差是两种完全不同的情况,有分别对应的处理方法,不要盲目的使用一些策略。 (2)在深度学习时代,只要正则适度,通常构建一个更大的网络便可以在不影响方差的同时减少偏差,而采用更多数据通常可以在不过多影响偏差的同时减少方差。 1.4正则化

洛谷P1471 方差

白昼怎懂夜的黑 提交于 2019-12-04 07:05:17
题目描述 蒟蒻HansBug在一本数学书里面发现了一个神奇的数列,包含 \(N\) 个实数。他想算算这个数列的平均数和方差。 输入输出格式 输入格式 第一行包含两个正整数 \(N\) 、 \(M\) ,分别表示数列中实数的个数和操作的个数。 第二行包含 \(N\) 个实数,其中第 \(i\) 个实数表示数列的第 \(i\) 项。 接下来M行,每行为一条操作,格式为以下两种之一: 操作1:1 x y k ,表示将第 \(x\) 到第 \(y\) 项每项加上 \(k\) , \(k\) 为一实数。 操作2:2 x y ,表示求出第 \(x\) 到第 \(y\) 项这一子数列的平均数。 操作3:3 x y ,表示求出第 \(x\) 到第 \(y\) 项这一子数列的方差。 输出格式 输出包含若干行,每行为一个实数,即依次为每一次操作 \(2\) 或操作 \(3\) 所得的结果(所有结果四舍五入保留 \(4\) 位小数)。 输入输出样例 输入 #1 5 5 1 5 4 2 3 2 1 4 3 1 5 1 1 1 1 1 2 2 -1 3 1 5 输出 #1 3.0000 2.0000 0.8000 解题报告 题意理解 区间加一个实数 区间求平均数 区间求方差 算法解析 首先我们来推倒公式。 先拿出方差公式 \[ S^2 = \frac{1}{n} * [(x_1 - \overline{x}

数据不正态分布如何办?

感情迁移 提交于 2019-12-04 05:42:45
在实际研究中,很多时候都需要数据满足正态分布才可以。比如说回归分析,其实做回归分析有一个前提条件即因变量需要满足正态分布性。也比如说方差分析,其有一个潜在的前提假定即因变量 Y 需要满足正态分布。还有很多种情况,比如 T 检验,相关分析等等。 但这种情况往往被分析人员忽略掉,或者是数学基本不够扎实,也或者无论如何数据均不满足正态分布等客观条件,也或者其它情况等。如果说没有满足前提条件,分析的结果会变得不科学严谨,分析结论会受到置疑。 哪些研究方法需要数据满足正态分布才行呢?以及如果不满足正态分布时应该如何处理呢?接下来会逐步说明。 第一:需要满足正态分布的几类常见研究方法: 常见会涉及五种研究方法,它们对正态性要求相对较高,如果不满足正态性则会有对应的处理。 线性回归分析 线性回归分析,很多时候也称回归分析。其对正态性的要求较为严格,包括因变量 Y 需要满足正态性要求,同时残差也需要满足正态性。如果说因变量 Y 不满足正态分布,通常情况下有以下几种处理办法。 第 1 :对因变量 Y 取对数处理(包括自然对数和 10 为底的对数);这可以在 SPSSAU 的生成变量功能里面找到; 第 2 :如果数据接近于正态分布,则接受其为正态分布性。此种情况较多,因为在研究影响关系时,线性回归最适合,如果不进行线性回归,通常情况下很难有更适合的研究方法。因而很多时候只要数据接受于正态性即可

机器学习之欠拟合和过拟合(一)

让人想犯罪 __ 提交于 2019-12-04 02:01:34
1.欠拟合(underfitting)与过拟合(overfitting) 在机器学习中,我们的主要思想是通过对数据集的学习来生成我们的假设模型。在对数据集进行拟合的过程中,我们可能会遇到欠拟合和过拟合的问题。以身高预测的例子为例,这里给出7-18岁男生的身高标准(数据来源: 7 岁~18 岁儿童青少年身高发育等级评价 ),如图1: 将中位数随年龄的变化绘制成散点图,如图2: 由图2中的散点可知,先开始身高随年龄几乎成一条直线关系,后来增长率逐渐下降。如果我们采用线性函数取拟合,这显然是不合理的(线性函数的增长率不会发生变化)。如果我们用一个多项式函数去拟合,虽然这个多项式可能会很复杂,但是我们总可能找到一个多项式函数使得该函数完美经过图中的散点,如图3: 现在,我们来看一下线性拟合(图3红线):年龄大于18岁以后,按照散点图的趋势,身高应该逐渐趋于稳定,但是线性拟合的结果是身高随年龄增长依旧保持很高的增长率。显然这并不是一种很好的拟合方式,对于这种情况,我们称之为欠拟合,即高偏差(high bias)。 接下来,我们来看一下“完美的多项式拟合”(图3蓝线):蓝线的损失函数为0,在回归问题中,我们求解参数矩阵的方法就是尽可能地让损失函数的值最小化。这是否意味着当损失函数为0时,这时我们的学习模型最好呢?并不是这样子的。在”完美的多项式拟合“当中,我们的假设函数通常情况下会非常复杂

Batch Normalization

心已入冬 提交于 2019-12-03 02:36:43
Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个经验领先于理论分析的偏经验的一门学问。 本文是对论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》的导读(看看看, 这是通过减少内部协变量移位加速神经网络训练)。 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的(相同分布是怎样的?是什么的相同分布?参数吗?)。 接下来一步一步的理解什么是BN。 为什么深度神经网络随着网络深度加深,训练起来越困难,收敛越来越慢?这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的,比如ReLU激活函数,再比如Residual Network,BN本质上也是解释并从某个不同的角度来解决这个问题的(这个解释还是很妙的)。

机器学习算法之降维

匿名 (未验证) 提交于 2019-12-03 00:38:01
  在机器学习的过程中,我们经常会遇见过拟合的问题。而输入数据或features的维度过高就是导致过拟合的问题之一。。维度越高,你的数据在每个特征维度上的分布就越稀疏,这对机器学习算法基本都是灾难性的。所有出现了很多降维的方法。今天我们要讨论的就是LDA降维。 LDA降维的思路是:如果两类数据线性可分,即:存在一个超平面,将两类数据分开。则:存在模旋转向量,将两类数据投影到一维上,并且依然是线性可分的。 提出问题 假设未定一组N个带标记的数据(X i ,C i ),其中,标记C分两类,即:C i i =1,设计分类器,将数据分开。如果x的维度很高,甚至比N还多,这时候就需要降维了。 解题过程 1、根据线性变换,将X降成一维的 假定旋转向量为W,将数据X投影到一维y,得到 y =W T X ,其中输入数据X,旋转向量W。 如此就将原来我x维的向量转换为一维,利用分类算法将数据分类为C。从而,可以找到阈值W 0, 如果y>W 0 为一类,y<W 0 为一类。 令C1类有N1个元素,C2有N2个元素,计算投影前的类内均值和投影后的类内均值和松散度(方差): 3、寻找Fisher判别准则 4、对目标函数进行优化 也就是对目标函数求导后取极值。 倒数为: , 三者同方向。 主题模型------主成分分析PCA PCA和LDA的区别 LDA:分类性能最好的方向 PCA