样本容量

概率统计基本概念总结

会有一股神秘感。 提交于 2020-01-05 22:08:59
一、概率论基本概念 样本空间、随机事件 频率和概率 概率的相关运算和性质 等可能概型:古典概型 条件概率 全概率公式:你用条件概念算事件概率 贝叶斯公式:条件概率用于反推计算条件概率 事件的相互独立性 二、随机变量极其分布 随机变量:每个样本点映射一个数字来表征 基本离散型随便基变量分布:0-1分布、伯努利实验二项分布、泊松分布 分布函数:随机变量概率在小于某随机变量的区间的概率和 概率密度函数:连续性的随即变量的概率密度分布函数,分布函数是密度函数的定积分。 概率密度的几种分布:均匀分布、指数分布、正态分布、 随机变量之间的映射函数,及对映射前后概率密度函数的推导 三、多维随机变量极其分布 随机变量由二维向量表征,称为:二维随机变量 二维随机变量的分布函数称为联合分布函数 联合分布函数式联合分布密度的定重积分 二维随机中某一维变量的分布函数称为二维联合分布函数的边缘分布 相对于边缘分布函数还有边缘概率密度 边缘分布主要用于用联合分布求边缘分布 二维变量概率和其中一维的的条件分布律 某一维条件确定下的条件概率密度分布 联合分布的随机变量相互独立 二维随机变量联合分布的几种: 1、z=x+y分布:卷积公式 2、z=x/y、z=xy的分布 3、M=max{x,y}及N={x,y}的分布 四、随机变量的数字特征 离散随机变量*概率的的全分布求和值收敛,则称这个值为数学期望。又称均值 方差

参数估计

核能气质少年 提交于 2019-12-26 11:21:57
中心极限定理是指随着样本容量n的增加,样本的均值抽样分布的形态也随之发生变化,将越来越 接近于正态分布。通常将样本容量n大于30的样本称为大样本,大样本组成的均值抽样分布可以被 认为是服从正态分布的。 参数估计有两种方法:点估计和区间估计,区间估计包含了点估计。二者的相同点都是基于一个样本作出;不同点是点估计只提供 单一 的估计值,而区间估计在点估计的基础上还提供了一个 误差界限 ,给出了取值范围——这个取值范围又叫置信区间(confidence interval),受置信度(一个概率值,即进行估计前必须事先确定的估计的把握度)影响,根据中心极限定理推导得来。 我们可以通过中心极限定理来 倒推 参数估计方法,整个倒推的思路是这样的: 区间估计实际上是抽一个样本,然后用这个样本的统计量来估计总体参数。比如想知道全校同学的每天平均学习时间(参数),就通过随机抽样找了100个同学作为样本,然后用这100个同学的平均学习时间(统计量),比如说2小时,并加减一个误差比如说半小时(关于这个误差的大小怎么定有空再说)来得到一个估计的范围。 但从一个总体可以抽许许多多样本,从全校10000名学生可以抽取到许许多多100位同学的组合,凭啥只相信一次抽样的结果?光凭一次抽样、并且只有100个同学来估计10000个同学到底靠不靠谱? 所以,在最终只用一个样本来估计总体前

处理分类问题常用算法(二)-----算法岗面试题

笑着哭i 提交于 2019-12-25 12:56:51
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数, 为模型对样本i的预测结果, 为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。 ● 生成模型和判别模型基本形式,有哪些? 参考回答: 生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场 判别式:LR,SVM,神经网络,CRF,Boosting 详情:支持向量机 ● 核函数的种类和应用场景。 参考回答: 线性核、多项式核、高斯核。 特征维数高选择线性核 样本数量可观、特征少选择高斯核(非线性核) 样本数量非常多选择线性核(避免造成庞大的计算量) 详情:支持向量机 ● 分类算法列一下有多少种?应用场景。 参考回答: 单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost。 ●

机器学习相关知识整理系列之一:决策树算法原理及剪枝(ID3,C4.5,CART)

こ雲淡風輕ζ 提交于 2019-12-23 05:29:48
决策树是一种基本的分类与回归方法。分类决策树是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成。结点由两种类型,内部结点表示一个特征或属性,叶结点表示一个类。 1. 基础知识 熵 在信息学和概率统计中,熵(entropy)是表示随机变量不确定性的度量。设 \(X\) 是一个取有限个值得离散随机变量,其概率分布为: \[P(X = x_i) = p_i, i = 1,2,3,...,n\] 则随机变量 \(X\) 的熵定义为: \[H(X) = - \sum_{i=1}^{n}p_i\log{p_i}\] 通常上式中对数以 \(2\) ,或者 \(e\) 为底。由定义知,熵依赖于 \(X\) 的分布,而于 \(X\) 的取值无关,所以 \(X\) 的熵记作 \(H(p)\) ,即: \[H(p) = - \sum_{i=1}^{n}p_i\log{p_i}\] 熵越大,随机变量的不确定性就越大, \(0\leq H(p) \leq \log{n}\) 。 1.1 条件熵 设有随机变量 \((X,Y)\) ,其联合概率分布为: \[P(X=x_i, Y=y_j) = p_{ij}, i = 1,2,...,n; j = 1,2,...,n\] 条件熵表示 \(H(Y|X)\) 在已知随机变量 \(X\) 的条件下随机变量 \(Y\) 的不确定性,定义为: \[H(Y|X) =

参数估计

蓝咒 提交于 2019-12-23 02:37:41
CONTENTS 点估计 矩估计 区间估计 样本量的确定 点估计 点估计是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。点估计和区间估计属于总体参数估计问题。何为总体参数统计,当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。 矩估计 矩估计,即矩估计法,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩(即所考虑的随机变量的幂的期望值)的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代(未知的)总体矩,解出感兴趣的参数。从而得到那些参数的估计。 区间估计 区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。下面将以总体均值的区间估计为例来说明区间估计的基本原理。 样本量的确定 一、估计总体均值时样本容量的确定 1.重复抽样 一旦确定了置信水平(1-α),Zα/2的值就确定了,对于给定的的值和总体标准差σ,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即: 由此可以推到出确定样本容量的公式如下: 2.不重复抽样

一文搞懂交叉熵损失

痞子三分冷 提交于 2019-12-20 06:12:42
本文从信息论和最大似然估计得角度推导交叉熵作为分类损失函数的依据。 从熵来看交叉熵损失 信息量 信息量来衡量一个事件的不确定性,一个事件发生的概率越大,不确定性越小,则其携带的信息量就越小。 设 \(X\) 是一个离散型随机变量,其取值为集合 \(X = {x_0,x_1,\dots,x_n}\) ,则其概率分布函数为 \(p(x) = Pr(X = x),x \in X\) ,则定义事件 \(X = x_0\) 的信息量为: \[ I(x_0) = -\log(p(x_0)) \] 当 \(p(x_0) = 1\) 时,该事件必定发生,其信息量为0. 熵 熵用来衡量一个系统的混乱程度,代表系统中信息量的总和;熵值越大,表明这个系统的不确定性就越大。 信息量是衡量某个事件的不确定性,而熵是衡量一个系统(所有事件)的不确定性。 熵的计算公式 \[ H(x) = -\sum_{i=1}^np(x_i)\log(p(x_i)) \] 其中, \(p(x_i)\) 为事件 \(X=x_i\) 的概率, \(-log(p(x_i))\) 为事件 \(X=x_i\) 的信息量。 可以看出,熵是信息量的期望值,是一个随机变量(一个系统,事件所有可能性)不确定性的度量。熵值越大,随机变量的取值就越难确定,系统也就越不稳定;熵值越小,随机变量的取值也就越容易确定,系统越稳定。 相对熵

机器学习---K最近邻(k-Nearest Neighbour,KNN)分类算法

早过忘川 提交于 2019-12-19 07:00:08
K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN)    K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。 2.算法原理       如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说,现在, 我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红色小三角形),下面,我们就要解决这个问题:给这个绿色的圆分类。   我们常说,物以类聚,人以群分,判别一个人是一个什么样品质特征的人,常常可以从他/她身边的朋友入手,所谓观其友,而识其人。我们不是要判别上图中那个绿色的圆是属于哪一类数据么,好说,从它的邻居下手。但一次性看多少个邻居呢?从上图中,你还能看到: 如果K=3

决策树

余生颓废 提交于 2019-12-18 10:47:07
   决策树 是一种基本的分类与回归方法。决策树模型呈树形结构,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤: 特征选择 、 决策树的生成 和 决策树的修剪 。    定义(决策树): 决策树由结点(node)和 有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶节点(leaf node)。内部结点表示一个特征或属性,叶节点表示一个类。   决策树的路径或其对应的if-then规则集合具有一个重要的性质:互斥并且完备。这就是说,每一个实例都被一条路径或一条规则所覆盖,而且只被一条路径或一条规则所覆盖。   决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。决策树学习算法包括 特征选择 、 决策树生成 与 决策树的剪枝 过程。决策树学习常用的算法有 ID3 、 C4.5 与 CART 。    特征选择    通常特征选择的准则是 信息增益 或 信息增益比 。    特征增益   在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量

R语言之Random Forest随机森林

十年热恋 提交于 2019-12-17 20:14:44
什么是随机森林? 随机森林就是 通过集成学习的思想将多棵树集成的一种算法 ,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随机森林的主要思想--集成思想的体现。 随机森林算法的实质 是基于决策树的分类器集成算法,其中每一棵树都依赖于一个随机向量,随机森林的所有向量都是独立同分布的。随机森林就是对数据集的列变量和行观测进行随机化,生成多个分类数,最终将分类树结果进行汇总。 随机森林相比于神经网络, 降低了运算量的同时也提高了预测精度 ,而且该算法对多元共线性不敏感以及对缺失数据和非平衡数据比较稳健,可以很好地适应多达几千个解释变量数据集。 随机森林的组成 随机森林是由多个CART分类决策树构成,在构建决策树过程中, 不进行任何剪枝动作 ,通过随机挑选观测(行)和变量(列)形成每一棵树。对于分类模型,随机森林将根据投票法为待分类样本进行分类;对于预测模型,随机森林将使用单棵树的简单平均值来预测样本的Y值。 随机森林的估计过程 1)指定m值,即随机产生m个变量用于节点上的二叉树,二叉树变量的选择仍然满足节点不纯度最小原则; 2

曼孚科技:AI算法领域常用的39个术语(上)

若如初见. 提交于 2019-12-11 17:54:20
​算法是人工智能(AI)核心领域之一。 本文整理了算法领域常用的39个术语,希望可以帮助大家更好地理解这门学科。 Attention 机制 Attention的本质是从关注全部到关注重点。将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。 Encoder-Decoder 和 Seq2Seq Encoder-Decoder 模型主要是 NLP 领域里的概念。它并不特指某种具体的算法,而是一类算法的统称。Encoder-Decoder 算是一个通用的框架,在这个框架下可以使用不同的算法来解决不同的任务。 Encoder-Decoder 这个框架很好的诠释了机器学习的核心思路: 将现实问题转化为数学问题,通过求解数学问题,从而解决现实问题。 Seq2Seq(是 Sequence-to-Sequence 的缩写),就如字面意思,输入一个序列,输出另一个序列。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。 Q-Learning Q学习是强化学习中基于价值的学习算法。 AdaBoost AdaBoost是Adaptive Boosting的缩写。 AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。 随机森林(Random Forest)