概率计算

统计1:概述

て烟熏妆下的殇ゞ 提交于 2020-03-07 06:57:13
概率论是人们在长期实践中发现的理论,是客观存在的。自然界和社会上发生的现象是多种多样的,有一类现象,在一定条件下必然发生,称作确定性现象,而概率论研究的现象是不确定性现象,嗯嗯,醒醒,概率论研究的对象是 随机现象 。那什么是随机现象呢?在个别试验中呈现出不确定性,而在大量重复实验中呈现出固有规律性的现象,称作随机现象,在大量重复实验中所呈现的固有规律,是统计规律性,也就是概率。 一,概率和频率 在提到概率之前,不得不说频率。对于一个随机事件来说,在一次试验中可能发生,也可能不发生,那么,如何表征事件在一次试验中发生的可能性大小呢?为了解答这个问题,引入了频率。频率描述了事件发生的频繁程度,频率越大,事件发生的越频繁,这意味着事件在一次试验中发生的可能性越大。我们定义,概率表征事件在一次试验中发生的可能性大小,因此,可从频率引出概率。 大数定理和中心极限定理是概率论的基本理论。大数定理论证了频率具有稳定性,中心极限定理表明了正态分布是普遍适用的。 概率是事件的固有规律,必须是稳定的一个数值,频率具有稳定性吗?在长期实践中,当试验次数不断增大时,事件发生的频率稳定在一个值附近,这一客观事实证明频率具有稳定性。 伯努利大数定理 用数学公式证明了频率的稳定性,因此,在实际应用中,当试验次数很大时,可以用事件的频率来代替事件的概率,用于表征事件发生的可能性大小。

极大似然估计(MLE)学习总结

泄露秘密 提交于 2020-03-06 10:26:28
原文链接: 极大似然估计(MLE)学习总结 《每天解决一个知识点系列》 估计能翻到这一页博文的盆友都是行走在机器学习/数据挖掘的路上吧,自学之路真的苦不堪言,于是下定决心把自己学到的知识点记下来,和初入机器学习之坑的基友们一起显摆显摆。话不多说,我将从一个小白的角度解读一下我对极大似然估计的理解(我比较喜欢这样叫,但为了学习方便,我采取官方说法),各位看官请往下看。 -------------------------------我是羞羞的分割线------------------------------------- 我是比较喜欢概率论的东西,对于最大似然估计的概念大家可以通俗理解为用观察去猜测真实概率。比如给定一组观察得到的样本数据X,我们无法知晓这个随机变量(其实是某个事件发生的属性值,它有多重取值可能)真实的概率分布函数是怎样的。这时候我们希望通过收集到的样本数据去猜哪个参数会影响分布函数使得最终呈现出我们观察到的这些样本。 不过,我们聪明的统计学家已经为我们观察到了复杂世界存在的各种概率分布情况及其对应的计算公式,如“正态分布”、“二项分布”、“泊松分布”等。但细心的同学们一定会发现这些所谓的分布发生的概率是有规律的,有各自的计算公式,如假设随机事件X服从均值为 µ ,方差为 σ 2 的正态分布函数,那么事件X发生的概率如下: 式1-1 但我们是不知道如何参数 µ和

NLP从入门到放弃_IBM Model1

ぃ、小莉子 提交于 2020-03-06 05:35:42
IBM Model1 IBM Model 是统计机器翻译中的经典翻译模型 IBM Model1仅考虑了词和词之间的互译概率 记录学习 lecture-ibm-model1 的过程 学习 外来句子, foreign sentence f = ( f 1 , . . . f l f ) f=(f_1,...f_{l_f}) f = ( f 1 ​ , . . . f l f ​ ​ ) ,长度为 l f l_f l f ​ 英文句子, english sentence e = ( e 1 , . . . , e l e ) e =(e_1,...,e_{l_e}) e = ( e 1 ​ , . . . , e l e ​ ​ ) ,长度为 l e l_e l e ​ a, alignment 外来句子中的词和英文句子中的词的对应关系,假设英文句子中的 e j e_j e j ​ 对应外来句子中的 f i f_i f i ​ (相同意思),则对应关系为 a : j → i a:j\rightarrow i a : j → i 目标函数, P ( a ∣ e , f ) P(a|e,f) P ( a ∣ e , f ) ,以给定的外来和英语为条件,找出其alignment 参数估计,EM算法 假设是需要将外来句子翻译成英文句子 目标函数 pdf中先给出了一个公式 p ( e , a ∣

隐马尔科夫模型HMM

大兔子大兔子 提交于 2020-03-05 15:46:51
隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较经典的机器学习模型了,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用。 HMM初探 什么样的问题需要HMM模型 使用HMM模型时我们的问题一般有这两个特征: 问题是基于序列的,比如时间序列,或者状态序列。 问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简称状态序列。 有了这两个特征,那么这个问题一般可以用HMM模型来尝试解决。这样的问题在实际生活中是很多的。比如:我现在在打字写博客,我在键盘上敲出来的一系列字符就是观测序列,而我实际想写的一段话就是隐藏序列,输入法的任务就是从敲入的一系列字符尽可能的猜测我要写的一段话,并把最可能的词语放在最前面让我选择,这就可以看做一个HMM模型了。再举一个,我在和你说话,我发出的一串连续的声音就是观测序列,而我实际要表达的一段话就是状态序列,你大脑的任务,就是从这一串连续的声音中判断出我最可能要表达的话的内容。 HMM模型的定义 对于HMM模型,首先我们假设 Q Q Q 是所有可能的隐藏状态的集合, V V V 是所有可能的观测状态的集合,即: Q = { q 1 , q 2 , . . . , q N } ,    V = { v 1 , v 2 , . . . v M } Q = \{q_1,q_2,

简单粗暴理解与实现机器学习之逻辑回归(五):ROC曲线的绘制

余生颓废 提交于 2020-03-04 13:52:59
逻辑回归 文章目录 逻辑回归 学习目标 3.5 ROC曲线的绘制 1 曲线绘制 1.1 如果概率的序列是(1:0.9,2:0.7,3:0.8,4:0.6,5:0.5,6:0.4)。 1.2 如果概率的序列是(1:0.9,2:0.8,3:0.7,4:0.6,5:0.5,6:0.4) 1.3 如果概率的序列是(1:0.4,2:0.6,3:0.5,4:0.7,5:0.8,6:0.9) 2 意义解释 学习目标 知道逻辑回归的损失函数 知道逻辑回归的优化方法 知道sigmoid函数 知道逻辑回归的应用场景 应用LogisticRegression实现逻辑回归预测 知道精确率、召回率指标的区别 知道如何解决样本不均衡情况下的评估 了解ROC曲线的意义说明AUC指标大小 应用classification_report实现精确率、召回率计算 应用roc_auc_score实现指标计算 3.5 ROC曲线的绘制 关于ROC曲线的绘制过程,通过以下举例进行说明 假设有6次展示记录,有两次被点击了,得到一个展示序列(1:1,2:0,3:1,4:0,5:0,6:0),前面的表示序号,后面的表示点击(1)或没有点击(0)。 然后在这6次展示的时候都通过model算出了点击的概率序列。 下面看三种情况。 1 曲线绘制 1.1 如果概率的序列是(1:0.9,2:0.7,3:0.8,4:0.6,5:0.5,6:0

Focal Loss

╄→гoц情女王★ 提交于 2020-03-04 05:26:07
损失函数(loss function)是用来 估量模型的预测值f(x)与真实值Y的不一致程度 ,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是 经验风险函数 的核心部分,也是 结构风险函数 重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:   其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的 Φ 是正则化项(regularizer)或者叫惩罚项(penalty term),它可以是L1,也可以是L2,或者其他的正则函数。整个式子表示的意思是 找到使目标函数最小时的 θ 值 。下面主要列出几种常见的损失函数。   理解:损失函数旨在表示出logit和label的差异程度,不同的损失函数有不同的表示意义,也就是在最小化损失函数过程中,logit逼近label的方式不同,得到的结果可能也不同。 一般情况下,softmax和sigmoid使用交叉熵损失(logloss),hingeloss是SVM推导出的,hingeloss的输入使用原始logit即可。 一、LogLoss对数损失函数(逻辑回归,交叉熵损失)   有些人可能觉得逻辑回归的损失函数就是平方损失,其实并不是。 平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到 ,而逻辑回归得到的并不是平方损失

Machine Learning系列--CRF条件随机场总结

对着背影说爱祢 提交于 2020-03-02 22:57:08
根据《统计学习方法》一书中的描述,条件随机场(conditional random field, CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。 条件随机场是一种判别式模型。 一、理解条件随机场 1.1 HMM简单介绍 HMM即 隐马尔可夫模型 ,它是处理序列问题的统计学模型,描述的过程为:由隐马尔科夫链随机生成 不可观测的状态随机序列 ,然后各个状态分别生成一个观测,从而产生观测随机序列。 在这个过程中,不可观测的序列称为状态序列(state sequence), 由此产生的序列称为观测序列(observation sequence)。 该过程可通过下图描述: 上图中, $X_1,X_2,…X_T$是隐含序列,而$O_1, O_2,..O_T$是观察序列。 隐马尔可夫模型由三个概率确定: 初始概率分布 ,即初始的隐含状态的概率分布,记为$\pi$; 状态转移概率分布 ,即隐含状态间的转移概率分布, 记为$A$; 观测概率分布 ,即由隐含状态生成观测状态的概率分布, 记为$B$。 以上的三个概率分布可以说就是隐马尔可夫模型的参数,而根据这三个概率,能够确定一个隐马尔可夫模型$\lambda = (A, B, \pi)$。 而隐马尔科夫链的三个基本问题为: 概率计算问题 。即给定模型$\lambda = (A,

贝叶斯先验概率和后验概率

陌路散爱 提交于 2020-03-02 07:23:28
前言: 贝叶斯公式究竟是什么意思,在现实中的含义是什么,什么是先验概率,什么是后验概率? 问题: 如下图所示:在一个群体中,有20个人。感冒5人,流感6人,脑膜炎4人,脑瘫3人,正常2人。 以B为例,解释一下。B表示感冒,感冒人数是5人,其中2人头疼。 现在问题是:当一个人头疼,判断这个人是感冒的概率? 解答: 1:(ABCDEF都表示事件),A表示头疼,B是感冒,C表示流感,D表示脑膜炎,E表示脑瘫,F是正常 2:因此,我们的问题就是求解 ,由贝叶斯定理我们知道: 其中: 表示在事件A发生的情况下,事件B发生的概率。 3:一个人头疼肯定是由上述5中情况导致的,因此由全概率公式,我们知道: 即: 4:从上面的图可以统计出来 , , , , 以 为例,它表示在感冒时头疼的概率,共5人感冒,2人头疼,则 , , , , , , , 则 其中,P(A)还有一个算法,就是用(总的头疼人数)除以(总的人数),同样也是0.5 5: ,因此我们知道当一个人头疼的时候,这个人感冒的概率是0.2 同样的方式计算 , , , 所以,当一个人头疼时,他感冒的概率是0.2,流感的概率是0.4,脑膜炎的概率是0.3,脑瘫的概率是0.1,正常的概率是 0,就是说只有这个人头疼,他就不可能是正常人,一定是患病的,这很好解释,因为正常人不会头疼。 总结: 通过这个例子可以发现,当我们要解答“一个人头疼

轮盘赌算法原理

可紊 提交于 2020-03-01 20:23:19
轮盘赌算法的基本思想是:各个个体被选中的概率与其适应度函数值大小成正比,它是为了防止适应度数值较小的个体被直接淘汰而提出的。 为了弄清轮盘赌算法,我搜集了相关的文献和教材,发现很多文章都喜欢把轮盘赌算法与遗传算法、蚁群算法、蜂群算法等混入一起来解释,这样轮盘赌算法中就会冒出什么染色体、遗传下一代、信息正反馈、信息素、雇佣蜂等词语,看起来“高大上”,这样也使得简单实用的轮盘赌算法在理解和实现上都变得复杂。话说,轮盘赌算法是可以应用到遗传算法、蚁群算法中去,但其算法的机理和遗传算法、蚁群算法是相互独立的,它的实现机理和遗传算法、蚁群算法、蜂群算法等没有任何关系,也没有什么染色体、遗传下一代、信息正反馈等高大上的词汇。 轮盘赌算法的核心在于两个概率和个体选择策略: (1)个体选择概率 (2)累积概率 (3)如何选择某个个体 1、个体个体选择概率比较好理解,适应度数值越高,它被选中的概率就越大,使用以下公式来表示。 其中,xi为某个个体。 2、累积概率把各个个体的概率使用不同长度的线段来表示,这些线段组合成一条直线,直线的长度为1(各个个体概率之和),这样在该直线中,某段的线段最长,就代表该个体被选中的概率越大。它的机理为: (一)任意选择所有个体的一个排列序列(这个序列可以随便排,因为是某线段之间的长度为代表某个体的选择概率) (二)任意个体的累积概率为该个体对应的前几项数据的累加和。

关于网络安全攻防演化博弈的研究小议

时光总嘲笑我的痴心妄想 提交于 2020-03-01 12:43:47
1. 拉高视角,从宏观看网络安全攻防 伴随着信息化的发展,网络安全的问题就一直日益突出,与此同时,网络安全技术也成为研究热点,直到今日也没有停止。 从微观来看,网络安全技术研究指的是针对某项或某几项指标的完善,例如: 针对WEB系统漏洞的挖掘和利用,以及与此相应的日志采集以及关键点审计技术,例如RASP和WAF,核心指标是精确率和召回率 恶意代码作者为了躲避病毒AV的静态和动态检测机制,通过隐写、混淆、多态等手段隐藏恶意代码的表征行为,与此对应的,病毒查杀厂商通过研究相应的反混淆、动态沙箱、插桩等技术,希望更有效地提取恶意代码的表征行为 在关注具体技术研究的同时,我们也需要意识到,网络安全策略的研究在某种程度上比技术研究更为重要,特别是对于同样的技术采用不同的安全策略会取得不同的效果。 网络安全中攻防对抗的本质可以抽象为攻防双方的策略依存性,而这种策略依存性正式博弈论的基本特征,因而可以考虑应用博弈论来解决网络安全攻防对抗的问题 。 在学术界,博弈论应用于网络安全处于发展阶段,相关的学术研究脉络有: 国外学者 Stakhanova 等人,通过随机博弈、不完全信息博弈等模型来进行入侵意图、目标和策略的推理 Reddy 指出关于入侵检测的研究主要且多数建立在一次性博弈分析的基础上 SHEN Shi-gen 认为考虑到真实场景中攻击的重复性,将其视为一个重复的多阶段博弈的过程显然更为合理