概率计算

特征词选择算法对文本分类准确率的影响(四)

醉酒当歌 提交于 2020-03-01 01:14:52
本小节,我们仅考虑一种特征词选择框架IG(infomation Gain)。 采用两种概率建模 第一种我们称之为经典的概率建模。也就是被公认采纳的那一种。 也就是说该种方法认为 每个类别的概率可以根据训练语料中两个类别的文章数目来估计,由于我的实验中两类数目相等所以各为二分之一。 文章是连接词语与类别的桥梁。因此在计算 TF(t,C)的时候,有可以根据文档是由多变量伯努利分布生成(一),还是多项式分布生成(二)。有两种概率计算方式。在(一)的情况下,仅考虑一个词在文章中是否出现,出现则为1,否则则为0。在(二)的情况下不仅要考虑一个词在文章中是否出现,而且要考虑其出现的次数。 下面给出情况一和情况二下的实验结果: 情况一: 情况二 对比后发现,取得最高准确率的值和维度都是一样的。不仅如此, 其实在两种情况下计算的各个文档规模,在各个特征维度上的5次交叉验证的平均准确率也是惊人的一致 (大家不要怀疑我伪造数据哈,没有这个必要) 两种方法计算的平均准确率如下(图片只显示了部分,最后我会将准确率数据打包上传) 来源: https://www.cnblogs.com/finallyliuyu/archive/2010/08/30/1812924.html

特征词选择算法对文本分类准确率的影响(五)

南笙酒味 提交于 2020-03-01 01:13:25
上一节(也就是在四中)我们谈了在经典概率框架下,采用两种方法估算p(t|ci),得出的结论是这两种方法对最后准确率没有显著影响。下面我们在给出一个菜鸟的naiva概率框架。 该框架 用概率归一化词袋子中所有词在训练文档集中出现的情 况。即 p(t) 由词袋子模型中的统计信息直接归一化计算,并假设 P(C1)=P(c2)=1/2 P(C|t) 也直接计算。 比如词袋子中有三个词 {[家务: class1:(1,3)(2,1) class2:(4,1)][俄罗斯: class2:(2,3),(4,1),(5,1)][健康: class1:(2,4),(3,2)]} 那么p(t=家务)=(3+1+1)/[(3+1+1)+(3+1+1)+(2+4)] 注意:(四)中的经典概率模型求p(t)是通过p(t|c)计算的,它认为只有p(t|c)可以通过当前语料库直接得出,其他的概率都要通过此概率推导得出. 在我们的假设中p(c|t)也直接计算。再举个例子p(class=class1|t=“家务”)=(3+1)/(3+1+1) 那么我这个菜鸟这么假设的概率模型合理吗? 会不会导致准确率降低。那么请实验结果来说话吧。 同样我们根据是否计算词在文章中出现的重数,又分为两个情况。 情况一不考率重数;情况二,考虑重数。(上边为情况一的实验结果,下边为情况二的结果) 种概率框架下,从最后的实验结果(平均准确率

Brier分数与概率校准

我是研究僧i 提交于 2020-02-27 18:27:53
https://www.cnblogs.com/sddai/p/9581142.html 3.Brier分数 在说概率校准前,先说下Brier分数,因为它是衡量概率校准的一个参数。 简单来说,Brier分数可以被认为是对一组概率预测的“校准”的量度,或者称为“ 成本函数 ”,这一组概率对应的情况必须互斥,并且概率之和必须为1. Brier分数对于一组预测值越低,预测校准越好。 其求解公式如下:(此公式只适合二分类情况,还有 原始定义公式 ) 其中 是预测的概率, 是 事件t的实际概率(如果不发生则为0),而N是预测事件数量。 引用维基百科的一个例子说明 Brier分数的计算方式: 假设一个人预测在某一天会下雨的概率P,则Brier分数计算如下: 如果预测为100%(P = 1),并且下雨,则Brier Score为0,可达到最佳分数。 如果预测为100%(P = 1),但是不下雨,则Brier Score为1,可达到最差分数。 如果预测为70%(P = 0.70),并且下雨,则Brier评分为(0.70-1) 2 = 0.09。 如果预测为30%(P = 0.30),并且下雨,则Brier评分为(0.30-1) 2 = 0.49。 如果预测为50%(P = 0.50),则Brier分数为(0.50-1) 2 =(0.50-0) 2 = 0.25,无论是否下雨。 4.概率校准

第一章:随机事件与概率

两盒软妹~` 提交于 2020-02-27 12:11:26
《概率论与数理统计》(华中科技大学数学系)刘次华主编 1.随机事件与样本空间 数据分析是数学的工具。 确定性现象: 在一定条件下可以准确预言结果的现象称为确定性现象.也称为必然现象. 随机现象(条件能否完全决定结果) 在基本条件完全相同的条件下,可能发生也可能不发生的现象称为随机现象. 基本事件(样本点): 随机试验中每个可能产生的结果,不可再分。 事件:( A、B、C ) 由一个或者若干个基本事件组成的随机事件的一个结果。 随机试验 E 的样本空间  的子集称为 E 的随机事件,简称事件 必然事件:(Ω S) 在随机事件中必定会发生的事件。 样本空间:(Ω S)(个数:有限,可数,不可数都可以,都有可能) 所有基本事件组成的集合。 2.事件的关系与运算 随机事件分类: 1.1个别随机现象(原则上不能在相同条件下重复出现) 1.2大量性随机现象(在相同条件下可以重复出现)、 2.1基本事件:由一个样本点组成的单点集 2.2复合事件:由若干个样本点组成的点集。由基本事件组成的事件 统计规律性:这种由大量同类随机现象所呈现出来的集体规律性 随机实验三特性:可重复性,随机性,可观察性。 随机试验:E ,描述随机现象的第一步就是建立样本空间. 每一个随机试验相应地有一个样本空间, 样本空间的子集就是随机事件. 子事件(属于),事件的和(并集),事件的积(交集) :用集合的方式表示。

02-12 Logistic(逻辑)回归

*爱你&永不变心* 提交于 2020-02-26 23:29:50
文章目录 逻辑回归 逻辑回归学习目标 逻辑回归引入 逻辑回归详解 线性回归与逻辑回归 二元逻辑回归的假设函数 让步比 Sigmoid函数图像 二元逻辑回归的目标函数 不同样本分类的代价 二元逻辑回归目标函数最大化 梯度上升法 线性回归和逻辑回归的参数更新 拟牛顿法 二元逻辑回归模型 二元逻辑回归的正则化 L1正则化 L2正则化 多元逻辑回归 OvR MvM 逻辑回归流程 输入 输出 流程 逻辑回归优缺点 优点 缺点 小结 逻辑回归   虽然逻辑回归的名字里有“回归”两个字,但是它并不是一个回归算法,事实上它是一个分类算法。 逻辑回归学习目标 二元逻辑回归的目标函数 最小化二元逻辑回归目标函数 二元逻辑回归的正则化 多元逻辑回归 逻辑回归的流程 逻辑回归的优缺点 逻辑回归引入 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1O9UxwXA-1582719512430)(…/新配图/恶搞图/06-09-操场2.jpg)]   曾经在感知机引入时我们讲过,操场上男生和女生由于受传统思想的影响,男生和女生分开站着,并且因为男生和女生散乱在操场上呈线性可分的状态,因此我们总可以通过感知机算法找到一条直线把男生和女生分开,并且最终可以得到感知机模型为 f ( x ) = s i g n ( ( w ∗ ) T x ) f(x)=sign((w^*)^Tx) f

大转盘抽奖逻辑--区间

半腔热情 提交于 2020-02-26 22:15:39
部分原文自: https://blog.csdn.net/larva_s/article/details/87532195 1. 抽奖需求 ​ 根据配置奖品的概率去抽取奖品,其中总概率不一定是 1 ,此时是按照权重去抽取奖品的。 2. 实现 2.1 思路:区间 区间 [0, 10):奖品1 [10, 65):谢谢参与 [65, 98):奖品2 [98, 100):奖品3 概率 奖品1概率:10 谢谢参与概率:55 奖品2概率:33 奖品3概率:2 ​​​​​​ 根据奖品概率构造一个区间 通过随机数Rondom的API获取随机值 [0, 最大值) 根据随机值匹配到对应区间的奖品,即是抽取到的奖品 /** * 奖品类 */ @Data @AllArgsConstructor public class Award { private Integer id; private String name; private Integer weight; } /** * 通用抽奖接口 * @param <T> */ public interface ILotteryService<T> { T draw(List<T> awardList) throws DrawException; } /** * 区间实现抽奖概率 */ public class IntervalLotteryService

扑克牌概率

我怕爱的太早我们不能终老 提交于 2020-02-25 19:56:13
扑克牌概率 一副扑克牌,去除大小王,剩下52张,从中任意取两张,能成一对的概率是多大? 解法一: 52张牌任选两张,共有C(2, 52) = (52×51)/ 2×1 = 1326种组合 同一点数的4张牌任选两张,有C(3, 4) = 6种组和,而一副牌有13种点数,所以成一对的组合有6×13 = 78种 那么,52张牌任选两张成一对待概率是78/1326 = 1/17 解法二: 我们先计算一下找到某个特定点数的对子的概率,比如两个A的概率,然后乘以13即可。 首先从52张任选一张是A的概率为4/52,然后从剩下的51张再选一张是A的概率为3/51,所以两张A的概率是(4/52)×(3/51)= 1/221 则13×(1/221)= 1/17 下面是一些从网上找到的资料,用来计算常见的扑克牌概率的,可以做参考      约定:   A,2,3,4....J,Q,K 称为牌点   梅花,红桃,黑桃,方块称为花色      同一花色,牌点连续的称为顺金 如: 梅花Q-K-A   不同花色,牌点连续的称为顺子 如: 梅花Q-梅花K-方块A      两张相同牌点称为对子: 如: 梅花3-梅花3-方块K   三张相同牌点称为炸弹: 如: 红桃A-红桃A-红桃A      取组合符号C(n,k),表示n个元素当中不重复任取k个   计算方法是   C(n,k) = n*(n-1)*(n-2)

时间复杂度分析

隐身守侯 提交于 2020-02-25 16:17:02
在上一篇文章中我们提到了时间复杂度大O分析法的使用,这次继续来探究时间复杂度的分析 我们先来看一下下面这段代码 这段代码的作用是在数组中寻找x的位置,找到了直接返回位置,没有找到的话返回-1,用上一篇文章所学到的知识,可以很清楚的看出来,这段代码的时间复杂度为O(n) 但是这段代码明显还有优化的空间,如果我们在数组中间寻找到x的话,就不需要把整个数组都循环一边了,所以可以优化为下面这段代码。 如果在这种情况下的话,就不能用上一次所说到的方法来衡量了,因为我们不知道需要寻找的x所在的位置在哪里,如果在第一个的话,它的时间复杂度就是O(1),如果这个数组里没有的话,就需要全部遍历一遍,它的时间复杂度就是O(n),这里就需要引入 最好时间复杂度 和 最坏时间复杂度 顾名思义,最好时间复杂度就是在最理想的状态下的时间复杂度,就是我们前面说的,所需要找的x恰好是数组的第一个字符,时间复杂度为O(1) 最坏时间复杂度就是在最糟糕的情况下的时间复杂度,就是前面说的需要寻找的x不在数组中的情况,时间复杂度就是O(n) 但是问题又来了,不管是最好还是最坏,它们发生的概率都是非常小的,都不能真正代表它的时间复杂度,这里我们就需要再引入一个概念: 平均时间复杂度 还是前面的例子,我们把x在每一个位置上所需要便利的个数都加起来然后再处以总次数n+1来求平均,这样的话我们就能够得到平均时间复杂度了

AI之语言模型

孤人 提交于 2020-02-24 23:09:34
AI之语言模型 语言模型 n元语法 n 元语法缺陷 语言模型数据集 读取数据集 建立字符索引 时序数据的采样 随机采样 相邻采样 例题   一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 T 的词的序列 ω 1 , ω 2 , . . . , ω T \omega_1,\omega_2,...,\omega_T ω 1 ​ , ω 2 ​ , . . . , ω T ​ ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P ( ω 1 , ω 2 , . . . , ω T ) . P(\omega_1,\omega_2,...,\omega_T). P ( ω 1 ​ , ω 2 ​ , . . . , ω T ​ ) .    本文介绍基于统计的语言模型,主要是 n 元语法( n -gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。 语言模型    假设序列 ω 1 , ω 2 , . . . , ω T \omega_1,\omega_2,...,\omega_T ω 1 ​ , ω 2 ​ , . . . , ω T ​ 中的每个词是依次生成的,我们有 P ( ω 1 , ω 2 , . . . , ω T ) = ∏ t = 1 T P ( ω T ∣ ω 1 , … , ω T − 1 ) = P ( ω 1 ) P ( ω 2 ∣

后验概率和极大似然估计

谁说我不能喝 提交于 2020-02-24 14:22:23
后验概率 后验概率是指在得到“结果”的信息后重新修正的概率。是“执果寻因”问题中的“果”,后验概率的计算要以先验概率为基础。 例如,后验概率 p ( y = 1 ∣ x ) p(y=1|x) p ( y = 1 ∣ x ) 的意思是:拿到 x x x 后, y = 1 y=1 y = 1 的概率( x x x 分类为类别 1 1 1 的概率) 极大似然估计 极大似然估计是求估计的一种方法。 求解步骤: 写出似然函数 对似然函数取对数,并整理 求导数 解似然方程 来源: CSDN 作者: 刘阳不吃饭 链接: https://blog.csdn.net/iiiliuyang/article/details/104444443