方差

随机森林RF

拜拜、爱过 提交于 2019-11-30 03:33:18
随机森林的一般步骤: 对原始数据集进行可放回随机抽样成K组子数据集 从样本的N个特征随机抽样m个特征 对每个子数据集构建最优学习模型 对于新的输入数据,根据K个最优学习模型,得到最终结果 采用bagging的方法可以降低方差,但不能降低偏差 公式法分析bagging法模型的方差问题: 假设子数据集变量的方差为,两两变量之间的相关性为 所以,bagging法的方差: 由(4)式可得,bagging法的方差减小了 结论:bagging法的模型偏差与子模型的偏差接近,方差较子模型的方差减小。所以,随机森林的主要作用是降低模型的复杂度,解决模型的过拟合问题。 随机森林是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法,其输出的类别是由个别决策树输出的类别的众树来决定的。在Sklearn模块库中,与随机森林算法相关的函数都位于集成算法模块ensemble中,相关的算法函数包括随机森林算法(RandomForestClassifier)、袋装算法(BaggingClassifier)、完全随机树算法(ExtraTreesClassifier)、迭代算法(Adaboost)、GBT梯度Boosting树算法(GradientBoostingClassifier)、梯度回归算法(GradientBoostingRegressor)、投票算法

方差、标准差、协方差、相关系数

最后都变了- 提交于 2019-11-29 21:19:15
链接:https://www.cnblogs.com/raorao1994/p/9050697.html 方差、标准差、协方差、相关系数 【方差】   (variance)是在概率论和统计方差衡量 随机变量 或一组数据时离散程度的度量。概率论中方差用来度量 随机变量 和其 数学期望 (即 均值 )之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的 平均数 。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。(百度百科)      在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:      实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:   S^2= ∑(X- ) ^2 / (n-1) S^2为样本方差,X为变量, 为样本均值,n为样本例数。(无偏估计) 【标准差】   标准差(Standard Deviation) ,中文环境中又常称 均方差 ,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。标准差也被称为 标准偏差 ,或者实验标准差

数学基础-day2

这一生的挚爱 提交于 2019-11-29 16:52:05
1 概率论基础 本福特定律(第一数字定律):在实际生活中得出的一组数据中,以1为首位数字出现的概率约为总数的三成。 条件概率 全概率公式 贝叶斯公式 给定某系统的若干样本,计算该系统的参数,即:   P(θ):先验概率,没有数据支持下,θ发生的概率   P(θ|X) :后验概率,在数据x支持下θ发生的概率   P(X|θ):给定某参数θ的概率分布,似然函数 2 常见概率分布 分布 参数 数学期望 方差 两点分布 0<p<1 p p(1-p) 二项分布 n>=1,0<p<1 np np(1-p) 泊松分布 γ>0 γ γ 均匀分布 a<b (a+b)/2 (b-a) 2 /12 指数分布 θ>0 θ θ 2 正态分布 μ, σ>0 μ σ 2 3 统计量 3.1 期望 离散型:   连续型: 期望的性质: 无条件成立关系式: 若X和Y相互独立:E(XY)=E(X)E(Y),反之不成立,只能说明X和Y不相关 3.2 方差 定义:Var(X)=E{[X-E(X)] 2 }=E(X 2 )-E 2 (X) 方差的性质: 无条件成立关系式:Var(c)=0 Var(X+c)=Var(X) Var(kX)=k 2 Var(X) 若X和Y相互独立:Var(X+Y)=Var(X)+Var(Y) 3.3 协方差 定义:Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} 性质: Cov(X,Y)

神经网络参数初始化方法

廉价感情. 提交于 2019-11-29 13:31:04
文章目录 过大或者过小的初始化 1. 所有的参数初始化为0或者相同的常数 2. 随机初始化 3. Batch Normalization 4. Xavier 限制 均匀分布 正态分布 5. MSRA 正态分布 均匀分布 总结及使用的概率公式 神经网络模型一般依靠随机梯度下降进行模型训练和参数更新,网络的最终性能与收敛得到的最优解直接相关,而收敛结果实际上又很大程度取决于网络参数的最开始的初始化。理想的网络参数初始化使模型训练事半功倍,相反,糟糕的初始化方案不仅会影响网络收敛,甚至会导致梯度弥散或爆炸。 参数初始化的理想状态是参数正负各半,期望为0。 过大或者过小的初始化 如果权值的初始值过大,则会导致梯度爆炸,使得网络不收敛;过小的权值初始值,则会导致梯度消失,会导致网络收敛缓慢或者收敛到局部极小值。 如果权值的初始值过大,则loss function相对于权值参数的梯度值很大,每次利用梯度下降更新参数的时,参数更新的幅度也会很大,这就导致loss function的值在其最小值附近震荡。 而过小的初值值则相反,loss关于权值参数的梯度很小,每次更新参数时,更新的幅度也很小,着就会导致loss的收敛很缓慢,或者在收敛到最小值前在某个局部的极小值收敛了。 1. 所有的参数初始化为0或者相同的常数 最简单的初始化方法就是将权值参数全部初始化为0或者一个常数

10 协方差矩阵与主成成分分析

梦想与她 提交于 2019-11-29 08:20:27
协方差矩阵 由上,我们已经知道:协方差是衡量两个随机变量的相关程度。且随机变量 之间的协方差可以表示为: 故根据已知的样本值可以得到协方差的估计值如下: 可以进一步地简化为: 如此,便引出了所谓的协方差矩阵: 主成成分分析 尽管从上面看来,协方差矩阵貌似很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis,简称PCA),在图像处理中称为Karhunen-Loève 变换(KL-变换)。 根据wikipedia上的介绍,主成分分析PCA由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是 通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值) 。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大。 然为何要使得变换后的数据有着最大的方差呢?我们知道,方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们 用于机器学习的数据(主要是训练数据)

统计学第七版学习笔记

三世轮回 提交于 2019-11-29 04:25:25
一、导论 统计应用领域:企业发展战略、产品质量管理、市场研究、财务分析、经济预测、人力资源管理。 统计数据的分类:按计量尺度:分类数据、顺序数据、数值型数据(★)         按收集方法:观测数据、实验数据         按时间状况:截面数据、时间序列数据 二、数据的搜集 数据来源:调查或实验 调查方法分类:概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样        非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样 搜集数据的基本方法:自填式、面访式、电话式、观察式 数据的误差:抽样误差       非抽样误差:抽样框误差、回答误差、无回答误差、调查员误差、测量误差 三、数据的图标展示 数据的预处理:数据审核、筛选、排序 品质数据包括分类数据和顺序数据,做分类整理   分类数据:计算频数与频数分布,或比例、比率等。图示有条形图、帕累托图、饼图、环形图   顺序数据:累积频数与累积频率。图示分类图示+累积频数分布或频率图 数值型数据做分组整理,有单变量值分组和组距分组两种,组距分组包括等距分组和不等距分组   图示:分组数据——直方图、未分组数据——茎叶图和箱线图、时间序列数据——线图、多变量数据——(散点图、气泡图、雷达图) 四、数据的概括性度量 数据分布特征:集中趋势的度量:分类数据——众数,顺序数据——中位数、四分位数,数值型数据—

笔记 - 基于贝叶斯网络的不确定估计(从一篇车载视角的行人框预测论文出发)

两盒软妹~` 提交于 2019-11-29 03:14:58
本文的出发点是一篇期刊论文,但集中探讨的是这篇文章中 不确定度估计的原理与过程 ,行文将与之前的文献报告不同。 原文 Bhattacharyya A , Fritz M , Schiele B . Long-Term On-Board Prediction of People in Traffic Scenes under Uncertainty[J]. 2017. 原文的一篇重要引用文献 Kendall A , Gal Y . What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?[J]. 2017. 关键词与基础概念 : 车载视角、行人框预测、认知不确定性、偶然不确定性、采样、伯努利分布与dropout变分推断、蒙特卡洛积分、贝叶斯定理与贝叶斯推断、贝叶斯网络 近日在阅读“Long-Term On-Board Prediction of People in Traffic Scenes Under Uncertainty”,文章所提出的模型功能是基于车载移动视角对行人框位置做出预测,并能够同时评估两类不确定度(模型不确定度,数据不确定度)。 对神经网络的不确定度估计 涉及较多概率论的知识,而且从理论到应用的转化也涉及到使用近似量估计的问题,因此初次接触这部分知识该我带来了不小的挑战

机器学习整理

╄→尐↘猪︶ㄣ 提交于 2019-11-29 00:01:21
1 概述交叉验证的使用:模型评价、超参数(阈值)优选,保证数据集同分布留一法交叉验证——MAE平均绝对误差 评价MAE(2 P68)实值函数回归 2 KNN模型 KNN Step1 预处理 x估计=x-μ/σ 并且记录{μ(k),σ(k),k=1,2,3,4} 平均错误率、标准差 Step2 选K值 KNN中的K m-fold(v) 2 p21 错误率最小的,作为最终的K,对样本集进行预测,K不能为偶数 m次,取n-1份作为训练集,1作为验证集合,得到(Acc(k),K)Step3 决策 K近邻回归,2类别分类K为奇数,防止相等无法判断 p44 混淆矩阵 自然状态*预测输出(TP、FN、FP、TN) p46 评价指标要记总体正确率、总体错误率、查准率Precision、查全率Recall/灵敏度Sensiticity、特异度(真阴性率)、漏报率(假阴性率)、虚警率(假阳性率)、Fβ-Score(查准率和查全率的调和平均)F=2Precision·Recal /(Precision+Recall)马修相关系数、Kappa系数西瓜书p32 宏平均、微平均宏平均:先带入xx率公式计算,再求平均值微平均:先求平均值,再带入xx率公式计算3 基于树的模型决策树主要是cartcart tree 不纯性度量: -分类目标:Gini指标 -连续目标:最小平方残差、最小绝对残差分类

java计算方差、标准差(均方差)

半腔热情 提交于 2019-11-28 17:45:11
java计算标准差思路 //方差s 2 =[(x1-x) 2 +...(xn-x) 2 ]/n 或者 public static double Variance(double[] x) { int m=x.length; double sum=0; for(int i=0;i<m;i++){//求和 sum+=x[i]; } double dAve=sum/m;//求平均值 double dVar=0; for(int i=0;i<m;i++){//求方差 dVar+=(x[i]-dAve)*(x[i]-dAve); } return dVar/m; } //标准差σ=sqrt(s^2) public static double StandardDiviation(double[] x) { int m=x.length; double sum=0; for(int i=0;i<m;i++){//求和 sum+=x[i]; } double dAve=sum/m;//求平均值 double dVar=0; for(int i=0;i<m;i++){//求方差 dVar+=(x[i]-dAve)*(x[i]-dAve); } //reture Math.sqrt(dVar/(m-1)); return Math.sqrt(dVar/m); }    来源: https://www

【深度学习】深入理解Batch Normalization批标准化

霸气de小男生 提交于 2019-11-28 15:38:33
这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出。   Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个 经验领先于理论分析 的偏经验的一门学问。本文是对论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》的导读。   机器学习领域有个很重要的假设: IID独立同分布假设 ,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢? BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。   接下来一步一步的理解什么是BN。   为什么深度神经网络 随着网络深度加深,训练起来越困难,收敛越来越慢? 这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的,比如ReLU激活函数,再比如Residual Network