统计学

统计学基础之假设检验

匿名 (未验证) 提交于 2019-12-02 23:59:01
目录: 一、基本概念   1、原假设   2、备择假设   3、两类错误   4、显著性水平   5、p值   6、单侧检验   7、双侧检验 二、假设检验的分类   1、一个总体参数的假设检验 总体均值的检验 总体比例的检验 总体方差的检验     2、两个总体参数的假设检验 两个总体均值之差的检验 两个总体比例之差的检验 两个总体方差比的检验 一、基本概念 假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。 (1)先假设总体某项假设成立,计算其会导致什么结果产生。若导致不合理现象产生,则拒绝原先的假设。若并不导致不合理的现象产生,则不能拒绝原先假设,从而接受原先假设。 (2)它又不同于一般的反证法。所谓不合理现象产生,并非指形式逻辑上的绝对矛盾,而是基于小概率原理:概率很小的事件在一次试验中几乎是不可能发生的,若发生了,就是不合理的。至于怎样才算是“小概率”呢?通常可将概率不超过0.05的事件称为“小概率事件”,也可视具体情形而取0.1或0.01等。在假设检验中常记这个概率为α,称为显著性水平。而把原先设定的假设成为原假设,记作H0。把与H0相反的假设称为备择假设,它是原假设被拒绝时而应接受的假设,记作H1。 1、原假设 :转自:

林轩田机器学习基石笔记1―The Learning Problem

匿名 (未验证) 提交于 2019-12-02 23:57:01
机器学习分为四步: When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Learn Better? 一、What is Machine Learning Q:什么是“学习”? A:学习就是人类通过观察、积累经验,掌握某项技能或能力。就好像我们从小学习识别字母、认识汉字,就是学习的过程。 机器学习(Machine Learning),顾名思义,就是让机器(计算机)也能向人类一样,通过观察大量的数据和训练,发现事物规律,获得某种分析问题、解决问题的能力。 机器学习可以被定义为:Improving some performance measure with experence computed from data. 也就是机器从数据中总结经验,从数据中找出某种规律或者模型,并用它来解决实际问题。 机器学习应用场合大致可归纳为三个条件: 事物本身存在某种潜在规律 某些问题难以使用普通编程解决 有大量的数据样本可供使用 二、Applications of Machine Learning 机器学习在我们的衣、食、住、行、教育、娱乐等各个方面都有着广泛的应用,我们的生活处处都离不开机器学习。 1)Food data:网上的餐厅信息(位置,评价) skill

机器学习算法常用指标总结

匿名 (未验证) 提交于 2019-12-02 23:36:01
机器学习性能评价标准是模型优化的前提,在设计机器学习算法过程中,不同的问题需要用到不同的评价标准,本文对机器学习算法常用指标进行了总结。 阅读目录 1. TPR、FPR&TNR 2. 精确率Precision、召回率Recall和F1值 3. 综合评价指标F-measure 4. ROC曲线和AUC 5. 参考内容   考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false negative)。   TP:正确肯定的数目;   FN:漏报,没有正确找到的匹配的数目;   FP:误报,给出的匹配是不正确的;   TN:正确拒绝的非匹配对数;   列联表如下表所示,1代表正类,0代表负类: 1. TPR、FPR&TNR   从列联表引入两个新名词。其一是 真正类率(true positive rate ,TPR) , 计算公式为 刻画的是分类器所识别出的 正实例占所有正实例的比例。   另外一个是 ,计算公式为 FPR = FP / (FP + TN)

读周志华《机器学习》个人读书笔记

匿名 (未验证) 提交于 2019-12-02 22:56:40
机器学习所研究的内容:是关于在计算机上通过数据产生“模型”的算法,即为“学习算法”(learning algorithm)。 “模型”指的就是学习所得的结果。 从数据中学得模型的过程称为“学习”或“训练”。 预测的若为离散值,此类学习任务称为“分类”(classification)若为连续值,此类学习任务称之为“回归”(regression)。涉及到两个类别的“二分类”(binary classification)任务,其中一个为“正类”(posive class),另一个为“反类”(negative class)。 根据训练数据是否拥有标记信息,学习任务分为:“监督学习”(supervise learning)和“无监督学习”(unsupervised learning)。分类回归是前者的代表,聚类(clustering)是后者的代表。 学得的模型适用于新样本的能力,称为“泛化”(generalization)能力。 归纳(induction)和演绎(deduction)。 归纳是从特殊到一般的泛化过程,即为从具体的事实中总结出一般的规律。演绎是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。 归纳学习有广义和狭义之分,广义的归纳学习相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,又称为“概念学习”或“概念形成”。

机器学习的基本分类

时间秒杀一切 提交于 2019-12-02 18:09:46
基于学科的分类 统计学 :基于统计学的学习方法是收集,分析,统计数据的有效工具,描述数据的集中和离散情况,模型化数据资料。 人工智能 :是一种积极的学习方法,利用已有的现成的数据对问题进行计算,从而提高机器本身计算和解决问题的能力。 信息论 :信息的度量和熵的度量,对其中信息的设计和掌握。 控制理论: 理解对象相互之间的联系与通信,关注于总体上的性质。 基于学习模式的分类 归纳学习: 归纳学习是应用范围最广的一种机器学习的方法,通过大量的实例数据和结果分析,使得机器能够归纳获得该数据的一种一般性模型,从而对更多的未知数据进行预测。 解释学习: 根据已有的数据对一般的模型进行解释,从而获得一个较为范型的学习模型。 反馈学习 :通过学习已有的数据,根据不断地获取数据的反馈进行模型的更新,从而直接获取一个新的,可以对已有数据进行归纳总结的机器学习方法。 基于应用领域的分类 专家系统: 通过数据的学习,获得拥有某个方面大量的经验和认识的能力,从而使之能够利用相关的知识来解决和处理问题。 数据挖掘 :通过对既有知识和数据的学习,从而能够挖掘出隐藏在数据之中的行为模式和类型,从而获得对某一个特定类型的认识。 图像识别: 通过学习已有的数据,从而获得对不同的图像或同一类型图像中特定目标的识别和认识。 人工智能: 通过对已有模式的认识和学习,使得机器学习能够用于研究开发

机器学习简介

↘锁芯ラ 提交于 2019-12-02 14:51:23
开始的时候,就是利用规则,但是有瓶颈,后来就有了基于统计学的方向,建立模型,让机器基于模型的规则,进行数据的拟合,模型里有很多参数,有可变化的东西,是机器自己学习的,效果有超过规则的可能,两个学派,基于规则,基于数学(统计学),后来机器学习慢慢后来居上,机器学习慢慢发展出很多的算法,逻辑树、决策树很早就有,神经网络雏形是比较早有的。 深度学习是机器学习里一个算法,就是神经网络,是比较璀璨的一个算法,开始的时候有限制,因为当时的计算机算力比较低,第二刚刚开始发展,数据量不是很大,神经网络模型复杂,需要海量的数据,现在数据量大,算力也提高,所以这个算法开始重新火起来,隐藏层很多,所以也叫深度学习,深度神经网络。 应用领域:自然语言处理(天气预报等)、计算机视觉(图像识别):人脸识别;无人车(虚拟世界中的学习);识别癌症(医生的辅助手段)、GAN(影视制作)、推荐系统(电商、电影等等,搜索引擎下一代东西)…… 深度学习常用框架:……大部分都支持Python的调用,Python和机器学习结合比较好。 https://scikit-learn.org/stable/ 需要我们掌握算法的原理,在调参的时候理解原理会有帮助(不仅仅是调包),从定性的角度理解即可,结合案例学习。 企业现状分析:行业在上升,涌入的人在增加,因此不容易入行了,比如算法工程师,要求越来越高了,但是整体行业的岗位在增加

统计学上数据的处理和图标的展示原则

泪湿孤枕 提交于 2019-12-02 12:18:36
1.数据的预处理: 是在对数据分类或者分组之前所做的必要处理 内容包括 数据的审核 筛选 排序 1.1 数据审核: 检查数据中是否有错误 主要从完整性和准确性去审核 考虑数据的适用性和时效性 完整性:是否有遗漏 填写是否齐全 准确性:是否有错误 和 异常值[看异常值是否正确] 1.2 数据筛选: 找出符合特定条件的某类数据[使用Excel] 1.3 数据排序 :按照一定顺序将数据进行排列 以便于发现明显的特征或者趋势 有助于对数据的纠错 重新归类或分组提供方便 1.4 数据透视表: 借助Excel来生产数据透视表 进行分类汇总和作图 形成一个符合需要的交叉表(列联表) 列联表[两个或两个以上变量交叉分布的频数分布表] 二维列联表---->交叉表 2.品质数据的整理与展示: 预处理后的数据,根据需要进一步做分类和分组 2.1 分类数据的整理与图示: 需要计算出每一类别的频数/频率、比例/比率 形成一张频数分布表 再根据需要进行展示 以便于对数据的特征有初步的了解 2.1.1 频数与频数分布: 频数是指落在某一特定类别或组中的数据个数 把各个类别及其落在其中相应频数 用表格的形式表现出来----->频数分布 2.1.2 分类数据的图示: 用图形来表示会更加的形象和直观 ----> 条形图[长短直观表现]、 帕累托图[分类数据排序后频数的分布]、 饼图[研究结构性问题的分布

Crush Course 统计学笔记

不问归期 提交于 2019-12-02 11:56:42
Crush Course 统计学 Ref : 十分钟速成课:统计学 1 - 什么是统计学 女士品茶:1920年左右剑桥英式下午茶时间一位女士认为牛奶先加或后加将影响茶的口感,因此将八杯茶打乱以区分口感,但为区分胡猜和舌头灵的界限,Fisher提出实验设计法使统计学严谨起来。 统计学领域:收集和分析数据的实践活动 统计学:数据的总合(summaries) 代理变量(Proxy):与所求结果相关但并非其自身 描述(Descriptive)统计学:研究数据中心位置(集中趋势的度量 即数据分布特征的度量)。压缩总结大量非直观数据以得出有用信息 推断(Inferential)统计:超出当前数据的推断,如简单抽样。不同问题有不同评判标准,亦有不同实验方法,具有 不确定性 ,是否信服取决于主观意见 2 -- 数理思维 数理思维以不同的方式观察世界,进行超越本能和直觉的思考 科学计数法便于表示大数,但不利于大数理解: 方式一:由小及大,从1想象到1,000,000,000 方式二:带入语境,均分到每个人 方式三:转换单位成熟悉的度量方式 方式四:找参照物,以物体替代,比如一百万人能装下几个足球场 大数定律:群体或样本足够大时,小概率事件完全可能发生 应用:7.6亿人则罕见疾病便会出现,或出现连续两期彩票号码相同 极小数概率:不以物喜不以己悲,在不必要事情上节约时间,如中大乐透最终大奖概率3

概率论基本概念详解

白昼怎懂夜的黑 提交于 2019-12-02 10:53:07
详解概率与期望的概念 本篇随笔简单讲解一下数学中的概率和期望的相关内容,并致力于对概率期望在信息学奥林匹克竞赛中的应用。建议阅读本篇博客并希望从中弄懂概率和期望相关内容的读者现行具备一定的(不低于初中)的统计学相关知识。了解一定的数学知识(尽量不低于初三--高一)。 概念集锦 1、随机现象 在一定的条件下,并不总是出现相同的结果的现象称为随机现象。 就是在同一条件下出现很多种不同的结果。 比如在一个固定的时间段,乘坐公交车的人数可能会不同。这就是一个随机现象。 2、随机变量 表示随机现象的各种结果的变量叫做随机变量。 比如在一个固定的时间段,乘坐公交车的乘客人数。(哈哈哈还是上面的例子) 比较数学的一个说法:设一个随机现象的所有可能结果做一个基本空间 \(\Omega\) ,随机变量 \(X\) 是定义在 \(\Omega\) 上的取值为实数的函数。这是个映射的关系,也就是对于这个基本空间 \(\Omega\) 的所有可能结果,都有一个值在实轴上与之对应。 怎么去理解这个东西呢?还是上面这个例子,如果定义 \(X\) 为八点到九点中乘坐公交车的乘客人数。那么 \(X\) 就是个随机变量。它会有很多种可能的结果。对于每个结果, \(X\) 有分别不同的取值。这就是一个映射的对应关系。 3、随机事件 在概率论中,将实验的结果称之为事件。在每次实验中,可能发生也可能不发生的事件

回归分析|r^2|Se|变差|多重相关系数|决定系数|多重共线性|容忍度|VIF|forward selection|backward elimination|stepwise regression procedure|best-subset approach|回归方程的置信区间|预测区间|残差分析|虚拟变量

江枫思渺然 提交于 2019-12-02 06:44:06
应用统计学 - 回归分析 拟合度使用 r^2 和 Se 来检验。 显著性检验中,对于线性 model 使用 ANOVA ,对于单独的回归系数使用 t 检验。 最小二乘法、贝叶斯和最大似然都可用于求回归参数,最小二乘法是最小化残差平方和。 基于 model 影响变差的因素有随机误差和自变量 x 。 因为 R^2=SST/SSE ,所以取值在( 0,1 )。而 Adjusted R^2=MST/MSE ,其中 SST 自由度是 n-1 , SSR 自由度是 k ,则 SSE 自由度是 n-k-1 。 多重相关系数 (multiple correlation coefficient) 又称复相关系数是因变量与所有自变量之间的关系。而相关关系是两两之间的关系。 因为: T(n)=(f(1,n))^1/2 所以 多重共线性可能会误导结果,有可能变弱甚至变负。 下面情况暗示存在多重共线性, Model 显著但是单独的回归系数却不显著。 容忍度和 y 无关 变量数目变大,比如加入细节性分类,则误差变小。 可以使用如下方法确定变量种类: 向前是加入就不能删去。 向后是删去就不能加入。 逐步回归是向前向后相结合,一进一出。 最佳子集是 k 种因素可以组成 2^k 个子集,考虑所有组合方式,得到最佳的方式。 在确定了变量种类之后,可以使用 f 检验来查看是否显著, 对个别值的预测需要还原到原始分布