概率计算

Localization

折月煮酒 提交于 2020-04-04 06:53:40
Localization (using Histogram Filters) 定位指的是在传感器和移动之间来回的迭代,使得能够保持跟踪目标对象的位置、方向和速度。 这篇将写一个程序来实施定位,与GPS相比,这个的程序将极大的降低误差范围。 假设一个汽车或者机器人所处在一个一维世界,它在没有得到任何提示在哪一位置。通过一个函数对这个问题建模,纵轴表概率,横轴表这个一维世界里所有位置,利用一个当值函数给这个一维世界每一个地方分配相同权重。 为了定位必须引入其他特征,假设有三个看起来相似的门,可以从非门区域 区分一扇门,(brlief = 信度),机器人感受到了它在一扇门的旁边,它分配这些地点更大的概率。门的度量改变了信度函数,得到新函数像这样,三个临近门的位置信度递加,其他所有地方信度递减,posterior bilief 表示它是在机器人进行感测测量后定义的。 如果机器人移动了,那么凸起的信度也会随之移动(所在位置的概率),而且凸起会因为机器人只是粗略地知道移动了多远而变得扁平化,这个过程叫卷积,卷积就是两个函数或措施的重叠,具体的说是一个函数划过另一个函数的重叠占比,介于0~1之间(CONVOLUTION 卷积) 假设汽车或机器人发现它的右边再一次靠近一扇门,此时在先于第二次测量的信度上乘以一个函数,函数如下,它在每一扇门下都有一个很小的凸起,但却有一个非常大的凸起

数据类型与数据分布

流过昼夜 提交于 2020-04-03 14:54:05
1.离解数据与离散分布 离解数据通常是那些只能用整数表现的数据。比如某省的人口数,宇宙中单位体积内的星球个数等。 1.1统计中常见的描述离散型数据的离散分布: 1.退化分布: 一个随机变量X以概率1取某一常数,即 P{X=a}=1,则称X服从a处的退化分布。确定分布。 2. 两点分布 : 一个随机变量只有两个可能取值, 设其分布为 P { X = x 1 } = p , P { X = x 2 } = 1 - p , 0 < p < 1, 则称 X 服从 x 1 , x 2 处参数为 p 的两点分布。 当如果 X只取 0 , 1两个值, 其概率分布为P { X = 1} = p , P { X = 0} = 1 - p , 0 < p < 1。则称 X服从参数为 p的 0 - 1分布 , 也称 X是参数为 p的伯努利随机变量. 此时EX = p , DX = p (1 - p)。【抛一枚硬币】 3.n个点上的均匀分布: 设随机变量X取n个没不同的值,且其概率分布为 P { X = x i } = 1/n,(i=1,2,3,...,n),则称X服从n个点{x1,x2,...,xn}上的均匀分布。【抛一枚骰子】 古典概型中经常出现此类分布情形。 4. 二项分布 :n重伯努利试验,成功k次的概率分布。 【判断是否为伯努利试验的关键是每次试验事件A的概率不变

Bayes' theorem (贝叶斯定理)

99封情书 提交于 2020-03-30 04:04:59
前言   AI时代的到来一下子让人感觉到数学知识有些捉襟见肘,为了不被这个时代淘汰,我们需要不断的学习再学习。其中最常见的就是贝叶斯定理,这个定理最早由 托马斯·贝叶斯 提出。   贝叶斯方法的诞生源于他生前为解决一个“ 逆向概率 ”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇论文之前,人们已经能够计算“正向概率”,如“袋子里N个白球,M个黑球,随机抓一个,抓到白球的概率”。而随之而来的另一个反过来的问题就是 “如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的“逆概”问题。   实际上,贝叶斯当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,贝叶斯方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,特别需要提的是: 贝叶斯是机器学习的核心方法之一 。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的(否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方

[Z]谷歌(Google)算法面试题

旧时模样 提交于 2020-03-29 09:02:41
谷歌(Google)算法面试题 1.谷歌面试题:给定能随机生成整数 1 到 5 的函数,写出能随机生成整数 1 到 7 的函数。 回答:此题的关键是让生成的 1 到 7 的数出现概率相同。 只要我们可以从 n 个数中随机选出 1 到 n 个数,反复进行这种运算,直到剩下最后一个数 即可。 我们可以调用 n 次给定函数,生成 n 个 1 到 5 之间的随机数,选取最大数所在位置即 可满足以上要求。 例如 初始的 7 个数[1,2,3,4,5,6,7]. 7 个 1 到 5 的随机数[5,3,1,4,2,5,5] 那么我们保留下[1,6,7], 3 个 1 到 5 的随机数[2,4,1] 那么我们保留下[6] 6 就是我们这次生成的随机数。 2. 谷歌面试题:判断一个自然数是否是某个数的平方。当然不能使用开方运算。 回答: 假设待判断的数字是 N。 方法 1: 遍历从 1 到 N 的数字,求取平方并和 N 进行比较。 如果平方小于 N,则继续遍历;如果等于 N,则成功退出;如果大于 N,则失败退出。 复杂度为 O(n^0.5)。 方法 2: 使用二分查找法,对 1 到 N 之间的数字进行判断。 复杂度为 O(logn)。 方法 3: 由于 (n+1)^2 =n^2+2n+1, =... =1+(2*1+1)+(2*2+1)+...+(2*n+1) 注意到这些项构成了等差数列

PU Learning简介:对无标签数据进行半监督分类

做~自己de王妃 提交于 2020-03-28 19:42:59
当只有几个正样本,你如何分类无标签数据 假设您有一个交易业务数据集。有些交易被标记为欺诈,其余交易被标记为真实交易,因此您需要设计一个模型来区分欺诈交易和真实交易。 假设您有足够的数据和良好的特征,这似乎是一项简单的分类任务。 但是,假设数据集中只有15%的数据被标记,并且标记的样本仅属于一类,即训练集15%的样本标记为真实交易,而其余样本未标记,可能是真实交易样本,也可能是欺诈样本。您将如何对其进行分类? 样本不均衡问题是否使这项任务变成了无监督学习问题? 好吧,不一定。 此问题通常被称为PU(正样本和未标记)分类问题,首先要将该问题与两个相似且常见的“标签问题”相区别,这两个问题使许多分类任务复杂化。第一个也是最常见的标签问题是小训练集问题。当您有大量数据但实际上只有一小部分被标记时,就会出现这种情况。这个问题有很多种类和许多特定的训练方法。另一个常见的标签问题(通常与PU问题混为一谈)是,训练的数据集是被完全标记的但只有一个类别。例如,假设我们拥有的只是一个非欺诈性交易的数据集,并且我们需要使用该数据集来训练一个模型,以区分非欺诈性交易和欺诈性交易。这也是一个常见问题,通常被视为无监督的离群点检测问题,在机器学习领域中也有很多工具专门用于处理这些情况(OneClassSVM可能是最著名的)。 相比之下,PU分类问题涉及的训练集,其中仅部分数据被标记为正,而其余数据未标记

《编程之美》中的一道错题 4.1 金刚坐飞机

断了今生、忘了曾经 提交于 2020-03-27 04:32:09
4.1 金刚坐飞机问题 话说,这道题的解法和答案都是有问题的,我们只看原题: 现在有一班飞机将要起飞,乘客们正准备按机票号码( 1, 2, 3, … N )依次排队登机。突然来了一只大猩猩(对,他叫金刚)。他也有飞机票,但是他插队第一个登上了飞机,然后随意地选了一个座位坐下了 。根据社会的和谐程度,其他的乘客有两种反应: 1. 乘客们都义愤填膺,“既然金刚同志不遵守规定,为什么我要遵守?”他们也随意地找位置坐下,并且坚决不让座给其他乘客。 2. 乘客们虽然感到愤怒,但还是以“和谐”为重,如果自己的位置没有被占领,就赶紧坐下,如果自己的位置已经被别人(或者金刚同志)占了,就随机地选择另一个位置坐下,并开始闭目养神,不再挪动位置。 那么,在这两种情况下,第 i 个乘客(除去金刚同志之外)坐到自己原机票位置的概率分别是多少? (一)先看第一问,我认为作者总结的公式太抽象了,至少能看懂那个公式的人不多。 遇到这样的问题,就是枚举,猜出公式,然后数学归纳法。 假设N=3,即1、2、3。 先来分析第一个人的概率: 如果金刚占了1,概率1/3,那么第1个人永远没机会坐到自己座位,概率为0。 如果金刚不占1(占了2或3)——概率2/3,这种情况下,第1个人可以在1和另一个座位(2或3)中进行选择,概率1/2,即P=2/3 * 1/2 = 1/3。 合计:1/3——这是第一个人坐到自己座位的概率。

公平 ? 的随机

独自空忆成欢 提交于 2020-03-26 07:53:58
一项输赢概率相等,压多少赢多少的赌博游戏,使用以下策略:压1元钱,输了就将下注加倍(2元,4元,8元...),赢了就又从1元钱开始压。使用此策略,能否确保一定能从游戏中赚到钱? --------------------------------------------- 小时候曾在一个小赌博中试过这样的一种玩法:猜大小。当然,不是使用真正的钞票,而是将扑克、牙签等作为替代品。 前两次玩这样的游戏的时候,我跟庄家(我弟)是共享输赢的,即彼此都没有占到多少便宜。玩的总局数没有计算过,消耗的时间大概是每次半天。但记得有一次,我跟我弟玩这个游戏的时候,我惊讶地发现我竟然在有限的时间把牙签都输至我弟那边了。这让当时的我百思不得其解。到现在当时的情形还历历在目。 不过现在看了云风的一篇博文: 不那么随机的随机数列 。回忆往昔,恍然大悟。在进行那次我输光牙签的赌局前,我们进行过另一场游戏,而那场游戏的结果很明显,我输了不少牙签。然后,在换至猜大小游戏时我仍旧使用本文开头所采用的策略,最后便出现了我输光所有的牙签的结局。 自己写了个好恶心的 Python 小程序验证云风所说的 " 那么,谁能凭直觉说出,掷 30 次硬币,至少出现一次“连续 7 次正面”的概率有多少?我写了个小程序计算了一下,答案远大于大多数人的直觉,居然达到了 18.3% 这么高。 "。 下次有空继续纠结这问题的时候再重构一下代码吧

详解聚类算法Kmeans的两大优化——mini-batch和Kmeans++

淺唱寂寞╮ 提交于 2020-03-25 09:36:18
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是 机器学习专题的第13篇 文章,我们来看下Kmeans算法的优化。 在上一篇文章当中我们一起学习了Kmeans这个聚类算法,在算法的最后我们提出了一个问题:Kmeans算法虽然效果不错,但是每一次迭代都需要遍历全量的数据,一旦数据量过大,由于计算复杂度过大迭代的次数过多,会导致 收敛速度非常慢 。 想想看,如果我们是在面试当中遇到的这个问题,我们事先并不知道正解,我们应该怎么回答呢? 还是老套路,我们在回答问题之前,先来分析问题。问题是收敛速度慢,计算复杂度高。计算复杂度高的原因我们也知道了, 一个是因为样本过大,另一个是因为迭代次数过多 。所以显然,我们想要改进这个问题,应该从这两点入手。 这两点是问题的关键点,针对这两点我们其实可以想出很多种优化和改进的方法。也就是说这是一个开放性问题,相比标准答案,推导和思考问题的思路更加重要。相反,如果我们抓不住关键点,那么回答也会跑偏,这就是为什么我在面试的时候,有些候选人会回答使用分布式系统或者是增加资源加速计算,或者是换一种其他的算法的原因。 也就是说分析问题和解决问题的思路过程,比解决方法本身更加重要。 下面,我们就上面提到的两个关键点各介绍一个优化方法。 mini batch mini batch的思想非常朴素,既然全体样本当中数据量太大

AUC(Area under Curve Roc曲线下面积)计算方法总结

时光总嘲笑我的痴心妄想 提交于 2020-03-24 16:41:11
3 月,跳不动了?>>> 转载至 http://blog.csdn.net/pzy20062141/article/details/48711355 一、roc曲线 1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 横轴 :负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity) 纵轴 :真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况. (1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP) (2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN) (3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP) (4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN) TP :正确的肯定数目 FN :漏报,没有找到正确匹配的数目 FP :误报,没有的匹配不正确 TN :正确拒绝的非匹配数目 列联表如下,1代表正类

AUC计算方法总结

十年热恋 提交于 2020-03-24 16:24:07
3 月,跳不动了?>>> 一、roc曲线 1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。 横轴 :负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity) 纵轴 :真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率) 2针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况. (1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP) (2)若一个实例是正类,但是被预测成为负类,即为假负类(False Negative FN) (3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP) (4)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN) TP :正确的肯定数目 FN :漏报,没有找到正确匹配的数目 FP :误报,没有的匹配不正确 TN :正确拒绝的非匹配数目 列联表如下,1代表正类,0代表负类: 由上表可得出横,纵轴的计算公式: (1)真正类率(True Postive Rate)TPR: TP/(TP+FN