样本容量

机器学习基础知识和常用名词解释

◇◆丶佛笑我妖孽 提交于 2020-02-18 01:53:52
机器学习入门的基础知识,包括常见名词的解释(线性回归、容量、过拟合欠拟合、正则化、超参数和验证集、估计、偏差和方差、最大似然估计、KL散度、随机梯度下降) 欢迎关注我的微信公众号“人小路远”哦,在这里我将会记录自己日常学习的点滴收获与大家分享,以后也可能会定期记录一下自己在外读博的所见所闻,希望大家喜欢,感谢支持! 1、数值计算基础 计算机求解问题的步骤 : 1、根据实际问题建立数学模型;(应用数学) 2、由数学模型给出数值计算方法;(计算数学) 3、根据计算方法编制算法程序在计算机上算出结果。 数值问题 :是输入和输出数据之间的函数关系的一个确定而无歧义的描述。可以理解为:输入和输出均为数据的数学问题。 上溢 :当大量级的数被近似为无穷大时发生上溢。 下溢 :当接近零的数被四舍五入为零时发生下溢。 优化 :改变x以最小化或最大化某个函数f(x)的任务。 目标函数 :需要最小化或最大化的函数。可描述为: 1 N ⋅ ∑ i = 1 N ∣ y i − f ( x i ) ∣ + 正 则 化 项 \frac{1}{N}\cdot\sum^N_{i=1}|y_i-f(x_i)|+正则化项 N 1 ​ ⋅ i = 1 ∑ N ​ ∣ y i ​ − f ( x i ​ ) ∣ + 正 则 化 项 成本(cost)或损失(loss) :为了训练模型,我们需要定义一个指标来评估这个模型

机器学习(Machine Learning)- 吴恩达(Andrew Ng) 学习笔记(十)

久未见 提交于 2020-02-06 23:45:46
Advice for applying machine learning Decide what to try next Debugging a learning algorithm 调试学习算法 Suppose you have implemented regularized linear regression to predict housing prices. \[ J(\theta) = \frac{1}{2m} \left[ \sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^m\theta_j^2 \right] \] However, when you test your hypothesis on a new set of houses, you find that it makes unacceptably large errors in its predictions. What should you try next? 假如你已经完成了房价预测的正则化线性回归(也就是最小化代价函数 \(J\) 的值),然而在你测试新的样例时发现产生了巨大的误差。要想改进这个算法你该怎么办? 可选的方法: Get more training examples 用更多的训练样本(收集样本耗费太大精力)

KNN分类器

我怕爱的太早我们不能终老 提交于 2020-02-04 07:36:56
KNN学习(K-Nearest Neighbor algorithm,K最邻近方法 )是一种统计分类器,对数据的特征变量的筛选尤其有效。 基本原理 KNN的基本思想是:输入没有标签(标注数据的类别),即没有经过分类的新数据,首先提取新数据的特征并与測试集中的每一个数据特征进行比較;然后从測试集中提取K个最邻近(最类似)的数据特征标签,统计这K个最邻近数据中出现次数最多的分类,将其作为新的数据类别。 KNN的这样的基本思想有点类似于生活中的“物以类聚。人以群分”。 在KNN学习中,首先计算待分类数据特征与训练数据特征之间的距离并排序。取出距离近期的K个训练数据特征。然后根据这K个相近训练数据特征所属类别来判定新样本类别:假设它们都属于一类,那么新的样本也属于这个类;否则,对每一个候选类别进行评分,依照某种规则确定新的样本的类别。 笔者借用以下这个图来做更形象的解释: 如上图,图中最小的那个圆圈代表新的待分类数据。三角形和矩形分别代表已知的类型,如今须要推断圆圈属于菱形那一类还是矩形那一类。 可是我该以什么样的根据来推断呢? 看离圆形近期(K=1)的那个类型是什么,由图可知,离圆形近期的是三角形,故将新数据判定为属于三角形这个类别。 看离圆形近期的3个数据(K=3)的类型是什么,由图可知离圆形近期的三个中间有两个是矩形,一个是三角形,故将新数据判定为属于矩形这个类别。

什么是无偏估计?

假装没事ソ 提交于 2020-01-29 10:46:29
无偏估计 所谓总体参数估计量的无偏性指的是 , 基于不同的样本,使用该估计量可算出多个估计值,但它们的平均值等于被估参数的真值。 在某些场合下,无偏性的要求是有实际意义的。例如,假设在某厂商与某销售商之间存在长期的供货关系,则在对产品出厂质量检验方法的选择上,采用随机抽样的方法来估计次品率就很公平。这是因为从长期来看,这种估计方法是无偏的。比如这一次所估计出来的次品率实际上偏高,厂商吃亏了;但下一次的估计很可能偏低,厂商的损失就可以补回来。由于双方的交往会长期多次发生 , 这时采用无偏估计,总的来说可以达到互不吃亏的效果。 不过,在某些场合中,无偏性的要求毫无实际意义。这里又有两种情况:一种情况是在某些场合中不可能发生多次抽样。例如,假设在某厂商和某销售商之间只会发生一次买卖交易,此后不可能再发生第二次商业往来。这时双方谁也吃亏不起,这里就没有什么“平均”可言。另一种情况则是估计误差不可能相互补偿,因此“平均”不得。例如,假设需要通过试验对一个批量的某种型号导弹的系统误差做出估计。这个时候,既使我们的估计的确做到了无偏,但如果这一批导弹的系统误差实际上要么偏左,要么偏右,结果只能是大部分导弹都不能命中目标,不可能存在“偏左”与“偏右”相互抵消,从而“平均命中”的概念。 由此可见,具有无偏性的估计量不一定就是我们“最需要”的“恰当”估计量 在概率论和数量统计中,学习过无偏估计

task5 贝叶斯

爱⌒轻易说出口 提交于 2020-01-26 08:33:15
知识点梳理¶ 相关概念(生成模型、判别模型) 先验概率、条件概率 贝叶斯决策理论 贝叶斯定理公式 极值问题情况下的每个类的分类概率 下溢问题如何解决 零概率问题如何解决? 优缺点 sklearn 自带代码块 from sklearn . naive_bayes import GaussianNB from sklearn . datasets import load_iris import pandas as pd from sklearn . model_selection import train_test_split iris = load_iris ( ) X_train , X_test , y_train , y_test = train_test_split ( iris . data , iris . target , test_size = 0.2 ) clf = GaussianNB ( ) . fit ( X_train , y_train ) print ( "Classifier Score:" , clf . score ( X_test , y_test ) ) 相关概念 生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中

机器学习——贝叶斯和朴素贝叶斯

China☆狼群 提交于 2020-01-19 11:39:52
贝叶斯判定准则: 最小化总体风险,只需在每个样本上选择能使条件风险R(c|x)最小的类别标记 一、极大似然估计 1.估计类的常用策略 :先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。即概率模型的训练过程就是参数估计过程。 2.参数估计两大学派 :频率主义学派和贝叶斯学派。 (1)频率主义 :参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值(最大似然)。 (2)贝叶斯学派 :参数是未观察到的随机变量,本身也可以有分布,因此,可假定参数服从一个先验分布,然后基于观察到的数据来计算参数的后验分布。 二、朴素贝叶斯 (1)思想: 对于给定的待分类项x,通过学习到的模型计算后验概率分布,即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为x所属的类别。后验概率根据贝叶斯定理计算。 (2)关键: 为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题,引入了条件独立性假设。 即假设各个特征之间相互独立 (3)工作原理: 贝叶斯公式:    对条件概率做了条件独立假设,公式为: (4)工作流程: 1)准备阶段: 确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本。 2)训练阶段: 对每个类别计算在样本中的出现频率p(y),并且计算每个特征属性划分对每个类别的条件概率p(yi | x

数理统计的基本概念

房东的猫 提交于 2020-01-16 09:57:55
See this article on my own blog https://dyingdown.github.io/2020/01/15/Mathematical-Statistics-Concepts/ 第六章 数理统计的基本概念 一、随机样本 (1)总体与个体 ​ a. 一批灯泡的全体组成一个总体,其中每一个灯泡都是一个个体。 ​ b. 一个随机变量X或其相应的分布函数 F ( x ) F(x) F ( x ) 成为一个总体。 (2)样本与样本值 ​ a. 样本容量 n n n ,样本值是每个具体的值 ​ b. 简单随机抽样:机会均等(代表性),个体相互独立(独立性) ​ c. 简单随机样本 ( X n ) (X_n) ( X n ​ ) ,简称样本,观测值称样本值 (3)定理 ​ a. 若总体X的分布函数为F(x),则样本 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X 1 ​ , X 2 ​ , ⋯ , X n ​ 的联合分布函数为 F ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n F ( x i ) F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\prod_{i=1}^{n} F\left(x_{i}\right) F ( x 1 ​ , x 2

横截面数据、时间序列数据、面板数据

谁说胖子不能爱 提交于 2020-01-15 22:02:14
转载: https://blog.csdn.net/SecondLieutenant/article/details/79625694 面板数据(Panel Data)是将“截面数据”和“时间序列数据”综合起来的一种数据类型。具有“横截面”和“时间序列”两个维度,当这类数据按两个维度进行排列时,数据都排在一个平面上,与排在一条线上的一维数据有着明显的不同,整个表格像是一个面板,所以称为面板数据(Panel Data)。 实际上如果从数据结构内在含义上,应该把Panel Data称为“时间序列-截面数据”,更能体现数据结构本质上的特点。该数据为也被称为“纵向数据(Longitudinal Data)”,“平行数据”,“TS-CS数据(Time Series-Cross Section)”。它是截面上个体在不同时间点的重复测量数据。面板数据从横截面(cross section)看,是由若干个体(entity,unit,individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。 从时空维度来看,可将计量经济学中应用的数据分三类: 1、横截面数据(Cross-sectional data)   横截面数据是指在某一时点收集的不同对象的数据。它对应同一时点上不同空间(对象)所组成的一维数据集合

假设检验

亡梦爱人 提交于 2020-01-07 02:15:34
CONTENTS 原假设 备择假设 两类错误 显著性水平 P值 单侧检验 双侧检验 假设检验又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。 例子:有统计资料得知,1989年某地新生儿的平均体重为3190克,现在从1990年的新生儿中随机抽取100个,测得其平均体重为3210克,问1990年的新生儿与1989年相比,体重有无明显差异? 原假设 统计的语言是用一个等式或不等式表示问题的原假设。在新生儿体重这个例子中,原假设采用等式的方式,即 H 0 : μ = 3190 ( 克 ) H_0:\mu=3190(克) H 0 ​ : μ = 3 1 9 0 ( 克 ) 这里的 H 0 H_0 H 0 ​ 表示原假设。 备择假设 尽管原假设陈述的两个总体的均值相等,却不表示它是既定的事实,仅是假设而已。如果原假设不成立,就要拒绝原假设,而需要在另一个假设中做出选择,这个假设称为备选假设。 两类错误 假设检验中的两类错误是指在假设检验中,由于样本信息的局限性,势必会产生错误,错误无非只有两种情况,在统计学中

数据学习(十)-假设检验

北慕城南 提交于 2020-01-06 14:44:54
目录 1.假设检验的基本问题 2.一个总体参数的检验 3. 两个总体参数的检验 1.假设检验的基本问题 假设检验是推断统计的另一项重要内容,它与参数估计类似,但角度不同,参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。 1.1 假设的陈述 1.对总体参数的具体数值所作的陈述,称为假设,或称为统计假设。 2. 先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程,称为假设检验。 3. 通常将研究者想收集证据予以支持的假设称为备择假设,或称为研究假设,用H1或Ha表示。 4.通常将研究者想收集证据予以反对的假设称为原假设,或称零假设,用H0表示。 备选假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验。 在单侧检验中,由于研究者感兴趣的方向不同,又可以分为左侧检验和右侧检验。如果研究者选择的备选假设的方向是“<”,称为左侧检验反之选择是“>”,称为右侧检验。 备选假设没特定的方向性,并含有符号“!=”的假设检验,称为双侧检验或双尾检验。 1.2 两类错误与显著性水平 当原假设为真时拒绝原假设,所犯的错误称为第一类错误, 又称弃真错误。犯第一类错误的概率通常记为a. 当原假设为假时没有拒绝原假设,所犯的错位称为第二类错误,又称取伪错误。犯第二类错误的概率通常记为b。