贝叶斯

【文末有福利】从贝叶斯角度看“挑战者”号航天事故

心已入冬 提交于 2021-01-21 13:54:11
1986年1月28日美国“挑战者”号航天飞机于佛罗里达州发射。挑战者号升空后,因其右侧固体火箭助推器(SRB)的O型环密封圈失效,毗邻的外部燃料舱在泄漏出的火焰的高温烧灼下结构失效,使高速飞行中的航天飞机在空气阻力的作用下于发射后的第73秒解体,机上7名宇航员全部罹难。 >>>> 对于那些经历过挑战者号航天飞机事故的人来说,那是一次工程设计上的失败。这样认为当然没错,但更重要的是,那是一次处理问题的失败,是关于O形环破损相关的风险评估的失败。 现在我们知道,用贝叶斯统计对其进行评估是最好的方法。贝叶斯思想实际上是关于条件概率的,指事件A在另外一个事件B已经发生的条件下的发生概率。事件B也有一个概率,被称为“先验概率”。举个简单的例子,如果天气多云(先验概率),分析一下下雨的概率;如果现在天气晴朗,再分析一下下雨的概率。这两种情况都有可能下雨,但天气多云的时候更有可能下雨。 贝叶斯统计在数据不完整的环境中非常有用,尤其适合在复杂情况下评估条件概率。条件概率发生在这样的情况下:一组可能的结果反过来依赖于另一组也具有概率性的条件。下雨的概率取决于天空中是否有云,这本身就带有概率性。 让我们用这种思维一起来分析下挑战者号航天飞机的例子,看看这种分析方法如何帮助你评估风险。 低温条件下O形环失效可能是挑战者号航天飞机起飞后不久便爆炸的原因。为了防止热气体泄漏,挑战者号上使用了橡胶O形环

R语言宏基因组学统计分析学习笔记(第三章-2)

蓝咒 提交于 2021-01-19 05:07:24
3.23 过度分散和零扁平模型 微生物组的物种分类数据,比如扩增子测序的微生物物种读数或者OTU数或者转录组的不同表达量的数据,是稀疏和有太多0的。在宏基因组计数数据中,特定基因的大幅变化和过度分散经常发生,影响不同丰度的基因。由于各种因素,过多的0在宏基因组数据中也经常出现,比如,基因的丰度由于生物医学的技术限制不能检测到。样本的0也可能由于细菌群落间大的多样性而发生。为了适应微生物组数据的这两个特征,我们通常使用 (negative binamial and zero flated)负二项零扁平模型。一个NB模型用于获得序列标签差异性,来探知临床宏基因组样本中不同丰度的特征。人肠道中不同细菌的丰度特征是分类级别越低,0越多向右偏。为了捕捉过多0的特征和对偏的微生物数据建模,需要一个模型,比如(Zero-inflated Poission零膨胀泊松)ZIP,(Zero-inflated Negative binominal反膨胀负二项式)ZINB或者跨栏模型。微生物研究中使用零膨胀模型的合适度由广泛的模拟和真实数据获得。为了发现环境或生物协变量和不同的细菌分类(分散多0数据),夏等应用了一个加性Logistic正态多项式回归模型,来把协变量和细菌组成(数量)相关联,也应用这个模型分析了饮食和粪便微生物组成之间的关联。 3.3 新开发的多元统计方法 3.3.1 狄利克雷多项分布模型

R语言宏基因组学统计分析学习笔记(第三章-3)

天涯浪子 提交于 2021-01-19 00:09:53
3.4 微生物数据组成分析 早在1897年,皮尔逊就警告说,在器官测量中使用两个 绝对测量值的比值 ,可能会形成“ 伪相关 ”。自1920s以来,地质学的研究人员已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用 成分的比率 来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中, 对数比变换 方法被地质学、生态学等领域的统计学家和研究人员广泛接受,因为通过对数比变换,可以消除组成数据的样本空间(单纯性)受约束问题,并将数据投影到多元空间中。因此,所有可用的标准多元技术都可以再次用于分析成分数据。 微生物组成的数据分析方法和工具是最近才得到发展的。方法的开发聚集于解除 组成的限制 : 样本中的所有微生物相对丰度之和为1 。约束导致组成数据驻留在单纯形而不是欧几里德空间中。为了恰当地比较微生物的组成,从样本中生物分类的相对丰度(而不是样本中生物分类的总丰度)推断出生态系统中的总分类比(OTU)。 为了避免伪相关,Lovell等提出了 比例 度量用于分析相对数据,因为比例是对相对数据的适当相关性分析。Erb和Notredame进一步提出了部分比例,这是从部分相关中采用的定义。为了确定物种的比例丰度,Erb等人提出了差分比例统计(2017)。它等同于分类比率的单向方差分析。

吴恩达深度学习笔记course3 week2 测验

你。 提交于 2021-01-14 02:07:13
第 1 个问题 To help you practice strategies for machine learning, in this week we’ll present another scenario and ask how you would act. We think this “simulator” of working in a machine learning project will give a task of what leading a machine learning project could be like! You are employed by a startup building self-driving cars. You are in charge of detecting road signs (stop sign, pedestrian crossing sign, construction ahead sign) and traffic signals (red and green lights) in images. The goal is to recognize which of these objects appear in each image. As an example, the above image

朴素贝叶斯分类-理论篇-如何通过概率解决分类问题

荒凉一梦 提交于 2021-01-13 14:15:24
贝叶斯原理是英国数学家 托马斯·贝叶斯 于18 世纪提出的,当我们不能直接计算一件事情(A)发生的可能性大小的时候,可以间接的计算与这件事情有关的事情(X,Y,Z)发生的可能性大小,从而间接判断事情(A)发生的可能性大小。 在介绍贝叶斯原理之前,先介绍几个与概率相关的概念。 1,概率相关概念 概率 用于描述一件事情发生的可能性大小,用数学符号 P(x) 表示, x 表示 随机变量 , P(x) 表示 x 的概率。 随机变量 根据变量取值是否连续,可分为 离散型随机变量 和 连续型随机变量 。 联合概率 由多个随机变量共同决定,用 P(x, y) 表示,含义为“事件 x 与事件 y 同时发生的概率”。 条件概率 也是由多个随机变量共同决定,用 P(x|y) 表示,含义为“在事件 y 发生的前提下,事件 x 发生的概率。” 边缘概率 :从 P(x, y) 推导出 P(x) ,从而忽略 y 变量。 对于离散型随机变量,通过联合概率 P(x, y) 在 y 上 求和 , 可得到 P(x) ,这里的 P(x) 就是边缘概率。 对于连续型随机变量,通过联合概率 P(x, y) 在 y 上 求积分 , 可得到 P(x) ,这里的 P(x) 就是边缘概率。 概率分布 :将随机变量所有可能出现的值,及其对应的概率都展现出来,就能得到这个变量的 概率分布 ,概率分布分为两种,分别是离散型和连续型。

面经 | 面试题目记录(美团)

*爱你&永不变心* 提交于 2021-01-12 09:10:23
以下内容带有部分提示性答案 无论是查找博客还是翻阅论文 大家还是要参照最全面的讲解哦~ 一、开发基础 TCP/IP C++虚函数 由两个部分组成的,虚函数指针与虚函数表 C++允许用户使用虚函数 (virtual function) 来完成“运行时决议 ” 这一操作,这与一般的“编译时决定 ” 有着本质的区别 “静态存储”和“动态存储” 静态存储:全局变量 动态存储:函数的形式参数 红黑树的原理 并发和并行的区别 https://www.jianshu.com/p/cbf9588b2afb 内存不够的情况下如何以最快速度进行排序 (海量数据类问题) 二、机器学习方向 讲一下LR (sigmoid) SVM介绍一下?为什么可以使用对偶来求解原始问题? 核函数了解吗?核函数解决什么问题? 为什么高斯核函数可以拟合无限维 (无穷泰勒展开) ID3缺点 (信息增益对可取值数目较多的属性有所偏好) 朴素贝叶斯公式 抽象一个分类问题[m个样本,n个特征,k种标签],问先验概率后验概率分别是什么 使用贝叶斯的前提条件 (贝叶斯公式没有前提条件) 使用朴素贝叶斯的前提条件 (所有特征相互独立的) GDBT和RF区别 三、深度学习方向 介绍熟悉的深度学习模型,并介绍优缺点 模型中方差,偏差怎么定义的 偏差,方差和过拟合,欠拟合的关系 怎么解决模型的方差偏大问题 降低模型的复杂度 减少数据维度:降噪

清华大学发布首个自动图机器学习工具包AutoGL,开源易用可扩展,支持自定义模型

时间秒杀一切 提交于 2021-01-12 02:27:50
机器之心报道 机器之心编辑部 如何应用自动机器学习 (AutoML) 加速图机器学习任务的处理?清华大学发布全球首个开源自动图学习工具包:AutoGL (Auto Graph Learning),支持在图数据上全自动进行机器学习。 人工智能的蓬勃发展离不开数据、算力、算法这三大要素。而在浩瀚的数据中,有一种数据结构既普遍又复杂,它就是图(graph)。 图是一种用于描述事物之间关系的结构,其基本构成元素为节点和连接节点的边。 很多不同领域的研究问题都可以很自然地建模成图机器学习,例如蛋白质建模、物理系统模拟、组合优化等基础研究;社交媒体分析、推荐系统、虚假新闻检测等互联网应用;以及金融风控、知识表征、交通流量预测、新药发现等。 社交网络图示例。 图结构丰富且具有与生俱来的导向能力,因此非常适合机器学习模型。同时,它又无比复杂,难以进行大规模扩展应用。而且不同的图数据在结构、内容和任务上千差万别,所需要的图机器学习模型也可能相差甚远,这就导致不同任务的模型自动化面临巨大挑战。 如何设计最优的图自动机器学习模型 ,是一个尚未解决的难题。 图 + AutoML = ? 自动机器学习 (AutoML) 旨在将机器学习的过程自动化,在降低机器学习使用门槛的同时,提升机器学习的效果。但现有的自动机器学习工具,无法考虑图数据的特殊性,因此无法应用在图机器学习模型中。 为了解决该问题

清华大学发布首个自动图机器学习工具包 AutoGL,开源易用可扩展,支持自定义模型...

混江龙づ霸主 提交于 2021-01-11 13:29:30
来源:机器之心 本文约2800字,建议阅读6分钟如何应用自动机器学习 (AutoML) 加速图机器学习任务的处理? 清华大学发布全球首个开源自动图学习工具包:AutoGL (Auto Graph Learning),支持在图数据上全自动进行机器学习。 人工智能的蓬勃发展离不开数据、算力、算法这三大要素。而在浩瀚的数据中,有一种数据结构既普遍又复杂,它就是图(graph)。 图是一种用于描述事物之间关系的结构,其基本构成元素为节点和连接节点的边。 很多不同领域的研究问题都可以很自然地建模成图机器学习,例如蛋白质建模、物理系统模拟、组合优化等基础研究;社交媒体分析、推荐系统、虚假新闻检测等互联网应用;以及金融风控、知识表征、交通流量预测、新药发现等。 社交网络图示例 图结构丰富且具有与生俱来的导向能力,因此非常适合机器学习模型。同时,它又无比复杂,难以进行大规模扩展应用。而且不同的图数据在结构、内容和任务上千差万别,所需要的图机器学习模型也可能相差甚远,这就导致不同任务的模型自动化面临巨大挑战。 如何设计最优的图自动机器学习模型,是一个尚未解决 的难题。 图 + AutoML = ? 自动机器学习 (AutoML) 旨在将机器学习的过程自动化,在降低机器学习使用门槛的同时,提升机器学习的效果。但现有的自动机器学习工具,无法考虑图数据的特殊性,因此无法应用在图机器学习模型中。

线性回归——lasso回归和岭回归(ridge regression)

戏子无情 提交于 2021-01-08 08:23:24
[toc] 线性回归很简单,用线性函数拟合数据,用 mean square error (mse) 计算损失(cost),然后用梯度下降法找到一组使 mse 最小的权重。 lasso 回归和岭回归(ridge regression)其实就是在标准线性回归的基础上分别加入 L1 和 L2 正则化(regularization)。 本文的重点是解释为什么 L1 正则化会比 L2 正则化让线性回归的权重更加稀疏,即使得线性回归中很多权重为 0,而不是接近 0。或者说,为什么 L1 正则化(lasso)可以进行 feature selection,而 L2 正则化(ridge)不行。 线性回归——最小二乘 线性回归(linear regression),就是用线性函数 $f(\bm x) = \bm w^{\top} \bm x + b$ 去拟合一组数据 $D = {(\bm x_1, y_1), (\bm x_2, y_2), ..., (\bm x_n, y_n)}$ 并使得损失 $J = \frac{1}{n}\sum_{i = 1}^n (f(\bm x_i) - y_i)^2$ 最小。线性回归的目标就是找到一组 $(\bm w^ , b^ )$,使得损失 $J$ 最小。 线性回归的拟合函数(或 hypothesis)为: $$ f(\bm x) = \bm w^{\top}

Exact Inference in Graphical Models

不羁的心 提交于 2021-01-05 23:51:36
独立(Independence) 统计独立(Statistical Independence) 两个随机变量X,Y统计独立的条件是当且仅当其联合概率分布等于边际概率分布之积: $$ X \perp Y \leftrightarrow P(X,Y)=P(Y) P(Y) $$ 思考:假设 $X \perp Y$,$Y \perp Z$,那么 $X$ 和 $Y$ 有没有独立关系呢? 举例:爸吃饭,奥巴马吃饭,妈吃饭 条件独立(Conditional Independence) 两个随机变量X,Y在Z的条件下独立的条件是当且仅当其条件联合概率分布等于条件边际概率分布之积: $$ X \perp Y | Z \leftrightarrow P(X, Y|Z)=P(X|Z)P(Y|Z) $$ 仅知道 Z 就能够决定 X ,此时 Y 与 X (条件)独立 概率图模型(Probabilistic Graphical Models) 预备知识 对于 D 个 K 项随机变量:$X_1, ..., X_D \quad X_i \in \left { 1, ..., K \right }$ 边际(Marginal): $$ P(X_{1:i-1,\ i+1:D})=\sum_{X_i}P(X_{1:D}) $$ 链式法则(Chain Rule)求联合分布 $$ P(X_{1:D})=P(X_1)\prod