概率统计

R语言与概率统计(二)

匿名 (未验证) 提交于 2019-12-02 23:47:01
####################5.2 X<-c(159, 280, 101, 212, 224, 379, 179, 264, 222, 362, 168, 250, 149, 260, 485, 170) t.test(X,alternative='greater',mu=225,conf.level = 0.95)#单边检验 ###########################5.3这是一个经典的两样本比较问题 X<-c(78.1, 72.4, 76.2, 74.3, 77.4, 78.4, 76.0, 75.5, 76.7, 77.3) Y<-c(79.1, 81.0, 77.3, 79.1, 80.0, 79.1, 79.1, 77.3, 80.2, 82.1) t.test(X,Y,var.equal=TRUE,alternative='less')#常把我们想要的结果作为备胎h1 t.test(X,Y,var.equal=F,alternative='less')#两组样本方差不同 t.test(X,Y,var.equal=TRUE,alternative='less',paired=T)#两组样本数量相同 #实战我们将使用MASS包中的UScrime数据集。它包含了1960年美国47个州的刑 罚制度 #对犯罪率影响的信息。我们感兴趣的结果变量为Prob

异常检测(2)——基于概率统计的异常检测(1)

放肆的年华 提交于 2019-11-28 22:39:41
  某个工厂生产了一批手机屏幕,为了评判手机屏幕的质量是否达到标准,质检员需要收集每个样本的若干项指标,比如大小、质量、光泽度等,根据这些指标进行打分,最后判断是否合格。现在为了提高效率,工厂决定使用智能检测进行第一步筛选,质检员只需要重点检测被系统判定为“不合格”的样本。   智能检测程序需要根据大量样本训练一个函数模型,也许我们的第一个想法是像监督学习那样,为样本打上“正常”和“异常”的标签,然后通过分类算法训练模型。假设x test 是数据样本,predict(x test )来判断x test 是否是合格样本。某个偷懒的家伙写下了这样的代码: def predict(xtest): return 1    由于工厂的质量管理过硬,仅有极少数不合格样本,因此这段荒唐的预测居然展现出极高的准确率!这是由于严重的数据偏斜导致的,或许我们可以通过查准率(Precision)和召回率(Recall)两个指标识别出这段不负责任的代码,但是当你再次试图使用某个监督学习算法时,仍然会面对同样的问题——仅有极少数不合格样本,以至于监督学习无法学到足够的知识。能否从极度偏斜的数据中学习出一个有效的检测模型呢?当然能,这就是基于统计的异常检测。这类方法通常会假设给定的数据集服从一个随机分布模型,将与模型不一致的样本视为异常样本。其中最常用的两种分布模型是一元正态分布模型和多元正态分布模型。

1023概率统计

独自空忆成欢 提交于 2019-11-27 19:38:42
现象 确定现象 随机现象 随机试验 定义 对随机现象的观察、记录、试验统称为随机试验 特点 (1) 试验可以在相同的条件下重复进行; (2) 每次试验的可能结果不止一个, 并且能事先明确试验的所有可能的结果; (3) 进行一次试验之前不能确定哪一个结果会出现. 在概率论中将具有上面特点的试验称为随机试验,用E表示随机试验 概念 基本事件 随机试验的每一个可能结果 样本空间S 基本事件的全体,随机试验E的所有结果构成的集合称为E的样本空间,记为S={e},称S中的元素e为基本事件或样本点. 样本点w S中的元素 复杂事件 由某些带有共同特征的基本事件所组成的事件 随机事件 定义 基本事件和复杂事件的统称 从集合论的观点看,一个随机事件A不过是样本空间S的一个子集而已,即 试验的样本空间S的子集称为的随机事件,随机事件简称事件,常用A,B,C表示 当且仅当这一子集中一个样本点出现时,称事件A发生. 事件A中所包含的某一个样本点w出现,即,试验所出现的样本点 分类 基本事件: 由一个样本点组成的单点集. 必然事件:每次试验中一定发生的事件.用S表示 不可能事件:每次试验中一定不发生的事件.用Ø表示 事件间的关系 试验E的样本空间Ω,A,B,C,AK(K=1,2,3),为试验E的事件 子事件 如果事件A发生必然导致事件B发生,则称事件B包含事件A,或称事件A是事件B的子事件,记作A⊂B或B