贝叶斯

log-binomial 模型

喜夏-厌秋 提交于 2020-11-30 20:38:02
在横断面研究中, Log-binomial 模型能够获得研究因素与结局变量的关联强度指标患病率比(PR),是一种研究二分类观察结果与多因素之间关系的重要方法,在医学研究等领域中得到了广泛的应用。 采用log-binomial 模型可直接估计PR, log-binomial模型的因变量y服从二项分布 ,且因变量(y= 1)概率的对数与自变量呈线性关系: 其中, β表示控制其他自变量时 , 自变量X 与Y之间的回归系数 ,PR = exp ( β) 01 适用情形 但当事件的发生率较高(>10%)时 ,若仍用OR描述关联强度,则会高估暴露与结局的关联。因此,很多学者建议采用现患比(PR)描述暴露与结局的关联强度。 当存在连续型自变量时,可能导致log-binomial 模型出现不收敛的情况,这是则可采用COPY方法 ( 数据集扩充,后面会介绍 )。 02 案例分析 假设有因变量Y与自变量X1,X2, X3, X4 等; 因变量Y(二分类)患病率大于20%,自变量X1 为年龄age(连续型变量),其他均为分类变量; 对于此案例,最直接的方法是采用logistic回归模型,但是Y 患病率大于20% ,可能会高估OR值。因此,本例使用 Log-binomial 模型 的PR值来估计患病率与研究因素的关联强度 03 SAS 程序实例 PROC GENMOD 的详细使用可参照SAS help

机器学习经典算法之KNN

▼魔方 西西 提交于 2020-11-30 01:01:46
一、前言 KNN 的英文叫 K-Nearest Neighbor,应该算是数据挖掘算法中最简单的一种。 先用一个例子体会下。 /*请尊重作者劳动成果,转载请标明原文链接:*/ /* https://www.cnblogs.com/jpcflyer/p/11111817.html * / 假设,我们想对电影的类型进行分类,统计了电影中打斗次数、接吻次数,当然还有其他的指标也可以被统计到,如下表所示。 我们很容易理解《战狼》《红海行动》《碟中谍 6》是动作片,《前任 3》《春娇救志明》《泰坦尼克号》是爱情片,但是有没有一种方法让机器也可以掌握这个分类的规则,当有一部新电影的时候,也可以对它的类型自动分类呢? 我们可以把打斗次数看成 X 轴,接吻次数看成 Y 轴,然后在二维的坐标轴上,对这几部电影进行标记,如下图所示。对于未知的电影 A,坐标为 (x,y),我们需要看下离电影 A 最近的都有哪些电影,这些电影中的大多数属于哪个分类,那么电影 A 就属于哪个分类。实际操作中,我们还需要确定一个 K 值,也就是我们要观察离电影 A 最近的电影有多少个。 二、KNN 的工作原理 “近朱者赤,近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步: 1. 计算待分类物体与其他物体之间的距离; 2. 统计距离最近的 K 个邻居; 3.对于 K 个最近的邻居,它们属于哪个分类最多

2019年美国大学生数学建模竞赛(MCM/ICM) E题解题思路

主宰稳场 提交于 2020-11-29 23:45:25
这也许是我大学生涯最后一次参加数学建模比赛了吧,这次我们选择的问题是E题,以下是我们解题时候的一些思路。很多不易体现的项目产生对环境造成影响的指标可以由一些等同类型的指标来代替,如土地、森林植被被破环,可以根据生产率变动方法和置换成本法进行核算,大气污染可以用疾病成本法等来体现。 题目(谷歌翻译版本) 经济理论经常忽视其决策对生物圈的影响,或者为其需求承担无限的资源或能力。这种观点存在缺陷,现在环境面临着后果。生物圈提供了许多自然过程来维持健康和可持续的人类生活环境,这被称为生态系统服务。例子包括将废物变成食物,水过滤,种植食物,授粉植物,以及将二氧化碳转化为氧气。然而,每当人类改变生态系统时,我们可能会限制或消除生态系统服务。当地小规模土地利用变化的影响,例如建设一些道路,下水道,桥梁,房屋或工厂,可能看起来微不足道。加入这些小型项目,大型项目,如建设或搬迁大型公司总部,在全国范围内建设管道,或扩大或改变水道以扩展商业用途。现在考虑一下这个地区,国家和世界上许多这些项目的影响。虽然这些活动可能看似单独对生物圈运作潜力的总体能力无关紧要,它们直接影响生物多样性并导致环境退化。传统上,大多数土地利用项目都没有考虑生态系统服务的影响或考虑到变化。减轻土地利用变化负面结果的经济成本:污染的河流,空气质量差,危险废物场所,处理不当的废水,气候变化等,往往不包括在计划中

概率论与数理统计图式(第一章 概率论的基本概念)1.2概率

一世执手 提交于 2020-11-29 23:45:04
概率论与数理统计图示(第一章 概率论的基本概念) 1.2概率 1、概念 概率:对随机时间发生可能性大小的客观度量 频率:频率≠概率,只能作为概率估计 古典概率:有限性、等可能性 几何概率:古典概率的推广,将“等可能性”推广至“均匀性” 2、概率公理化定义 1.非负性:0≤P(A)≤1 2.规范性:P(Ω)=1 3.可例(完全)可加性:事例互不相容——事件概率和=事件和概率 3、概率的性质 1) P(Φ)=0 2)有限可加性 3)单调性 4)P(A)=1-P(A) 5)一般减法公式 P(A)=P(B)- P(AB) 6)AB不互不相容,一般加法公式 P(A∪B)=P(A)+P(B)-P(AB) 互不相容则合事件概率=事件概率做和 4、概率运算的总结 事件运算和概率加减对应 概率相乘/条件概率借与事件独立性相关,不归属于韦恩图能理解的概率运算,而属于条件概率乘法公式 5、条件概率 P(A|B)=P(AB)/P(B) 文字化表述:在事件B 发生的条件下,事件A发生的条件概率 P(A|B)与P(A)没有确定的大小关系 P(A|B)>P(A),B促进了A的发生 P(A|B)<P(A),B阻碍了A的发生 P(A|B)=P(A),B对A的发生没有影响 6、乘法公式   P(AB)=P(B)P(A|B) 求积事件概率 7、样本空间相关公式 样本空间的划分 事件满足互不相容,且并集为整个样本空间

面试了8家公司,他们问了我这些机器学习题目......

淺唱寂寞╮ 提交于 2020-11-26 13:57:02
翻译 | 王柯凝 出品|人工智能头条(公众号ID: AI_Thinker ) 【 导读 】 今年年初以来,作者一直在印度找数据科学、机器学习以及深度学习领域的工作。在找工作的这三十四天里,他面试了8到10家公司,其中也包括初创公司、基于服务的公司以及基于产品的公司。作者希望他的面试经验能够为求职者提供一些有用的信息,因而撰写了此文。希望你读后能够有所收获! 首先自我介绍一下: 我在机器学习(语音分析、文本分析和图像分析领域应用)领域有4年以上的从业经验。总的来说,我认为这个领域的大多数工作职位主要包括文本分析(自然语言处理)和图像分析(计算机视觉)。很少有公司招聘语音或音频分析的人才。我现在的目标是应聘一个中高级职位,可以带领一个深度学习或机器学习团队做一些有趣的项目。 下面是我在应聘过程中被问到的问题,希望能够对你有所帮助。 ▌ 公司一:基于全球性服务的某公司(面试时长:20-25min) 你在简历中提到曾经构建过一个文档挖掘系统,你都做了哪些工作?能否在主题建模(topic modeling)中使用LDA技术实现文档聚类? 假设你有数百兆字节的数据文件,这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等,请你给出一个分类方案。 你如何阅读扫描版pdf文件或图像格式的书面文件的内容? 朴素贝叶斯为什么被称为“朴素”? 请详细介绍一下朴素贝叶斯分类器。 什么是深度学习

一道有悖直觉的概率题

可紊 提交于 2020-11-25 19:50:52
我是一个概率控,平常遇到和概率相关的事情都喜欢去推算一下,喜欢看概率有关的影视作品(决胜21点、欺诈游戏、赌博默示录……),就连在汤姆熊或是巴黎人,我也会估下哪一个机器输的可能性更小一点(赢是不可能赢的啦)。 所以,碰到概率相关的问题,我通常都不会轻易放过。之前公*号里讲过的概率问题就有好几个: 三门问题 蜥蜴流感与贝叶斯定理 几道有趣的概率题 一个略奇葩的计算圆周率的程序 世界杯竞猜,怎么选会赚 最近,又看到一个有意思的概率题,今天给大家分享并分析一把: 甲乙二人玩掷硬币的游戏。 连续抛掷同一枚硬币 ,如果 最近三次硬币 抛掷结果是“ 正反反 ”,则 甲胜 ;如果是“ 反反正 ”,则 乙胜 。问:谁胜的概率更高? 各位先想一下,结果是什么? 甲胜概率高(正反反) 乙胜概率高(反反正) 两人概率一样 单纯看扔3次硬币的结果,“正反反”和“反反正”出现的概率都是 1/8(1/2的3次方) 。那么,是不是就代表两人胜的概率是一样的呢? 以前中学时代跟同学讨论概率,如果双方有分歧,就很难说服对方。即使有了一个结论,也无法确认到底是否正确。毕竟大多数时候,你不可能亲自去实验足够多的次数。 但有了计算机和编程之后,情况就好多了。只要你的代码没有问题,通常可以模拟出实验场景,得到一个参考结果来佐证。 今天这个问题,同样可以通过代码进行模拟: 单次掷硬币,正反面的概率各是50%

测测你的数学直觉

依然范特西╮ 提交于 2020-11-25 19:08:11
已知: 新冠测试的准确率: 新冠患者被测出positive的概率是0.9 非新冠患者被测试出negative的概率是0.9 整个人群的新冠患者比例是0.1 如果一个人被测试出positive,那他是新冠的概率更接近以下哪个: 0.4 0.5 0.6 0.7 0.8 0.9 1 如果不知道如何下手,可以参考贝叶斯定理。 来一起算一算: 是不是有点surprise。对于发病率较低的疾病,比如说0.01,一样的准确度,测试出是阳性的结果,实际上是阳性的概率只有0.083. Plot一个图给大家看看。x轴为发病率,y轴为测试出阳性的人的得病概率。 为什么会有这种直觉误差呢。这就是统计学上最经典的样本分布不均匀的问题。如果实际发病率达到了0.5(样本分布均匀),那么: P(TestPositive/Positive)=P(Positive/TestPositive)=0.9 那直觉就对了。 还记得模型评分里提到的那个例子吗?对于疾病的预测,如果预测全部false,准确率可以达到(1-发病率), 也就是发病率为0.01的疾病,模型什么都不做,就可以达到准确度99%。 另外提醒,瑞典的参与新冠测试的人,基本上都症状差不多match了,所以测试出是positive,就基本上是positive了。而本文的例子是大街上随便抓一个去测试的案例。 本文分享自微信公众号 - 一起learn大数据和机器学习

干货|PRML读书后记(一): 拟合学习

走远了吗. 提交于 2020-11-25 09:48:20
1 优美的高斯分布 [P29]图1.16很好的描绘了这样表达的优美之处: 2 极大似然估计的病态拟合 3 参数-Regularizer 4 先验分布:高斯分布 高斯分布应该算是我们认知中,描绘一切连续型数值不确定性的最基本、最硬派的先验知识了。 甭管你是什么妖魔鬼怪,只要你是连续的,不是离散的,先给你套个高斯分布的罪状。 当然,钦定高斯分布从数学角度是由原因的,和其优美的数学共轭形式有关。 [P98]的练习证明了,高斯似然分布 x 高斯先验分布,结果仍然是一个高斯分布。 (此证明需要熟读第二章关于高斯分布的 150 个公式,需要很好的概率论、线代基础。) 高斯分布在数学形式上有许多便利,比如下面提到的零均值简化版高斯分布,这为贝叶斯方法招来很多 恶评,[P23] 是这样解释的:贝叶斯方法广受批判的原因之一,是因为其在选取先验概率分布上,根据的是 数学形式的便利为基础而不是 先验分布的信度 。 贝叶斯方法讲究推导严谨,公式齐全,对于那些奇怪的、无法用数学语言表达原理的、广布自然界的先验知识, 如Deep Learning思想,自然不会考虑,这也是为什么有人会认为Deep Learning与Bayesian是对着干的。[Quroa] 5 波动性惩罚:简化高斯分布 6 稀疏性惩罚:L1 Regularizer I、大脑中有1000亿以上的神经元,但是同时只有1%~4%激活

掌握机器学习数学基础之概率统计

℡╲_俬逩灬. 提交于 2020-11-25 03:19:42
机器学习为什么要使用概率 概率学派和贝叶斯学派 何为随机变量和何又为概率分布? 条件概率,联合概率和全概率公式: 边缘概率 独立性和条件独立性 期望、方差、协方差和相关系数 常用概率分布 贝叶斯及其应用 中心极限定理 极大似然估计 概率论中的独立同分布? 机器下学习为什么要使用概率 我们借助概率论来解释分析机器学习为什么是这样的,有什么依据,同时反过来借助概率论来推导出更多机器学习算法。很多人说机器学习是老中医,星座学,最主要的原因是机器学习的很多不可解释性,我们应用概率知识可以解释一部分,但还是很多值得我们去解释理解的东西,同时,什么时候机器学习更多的可解释了,反过来,可以用那些理论也可以继续为机器学习的,对人工智能创造推出更多的理论,等到那一天,也许真的能脱离更多的人工智障了。 这是因为机器学习通常必须处理不确定量,有时也可能需要处理随机 (非确定性的) 量。不确定性和随机性可能来自多个方面。总结如下, 不确定性有三种可能的来源: 被建模系统内在的随机性:例如一个假想的纸牌游戏,在这个游戏中我们假设纸牌被真正混洗成了随机顺序。假如这个时候你要对这个这个游戏建模(预测抽的牌点数也好,预测怎么玩才会赢也罢),虽然牌的数量和所有牌有什么是确定的,但是若我们随机抽一张,这个牌是什么是随机的。这个时候就要使用概率去建模了。 不完全观测:例如一个游戏节目的参与者被要求在三个门之间选择

谈谈实现小样本学习的两条路径

半世苍凉 提交于 2020-11-24 09:53:03
来源:混沌巡洋舰 小样本学习是当下机器学习界的一个核心课题。大数据是当下深度学习的咽喉,面临收集成本昂贵,甚至根本无法采集的弊端, 小样本学习的实践价值不言而喻。对于众多产业来说, 真正能够收集到大量样本的是极少数情况,比如人脸识别,互联网上的文本等。而更广大的行业, 数据本身收集就很难,一些隐私伦理等障碍难以跨越,比收集数据更难的还有标注,大数据支撑的机器学习基本使用无望。 所谓小样本学习,就是使用远小于深度学习所需要的数据样本量, 达到接近甚至超越大数据深度学习的效果,也即是小样本学习的本质就是学习的效果与数据比值的提升, 或者说单位数据产生的模型收益增大了 。 与之高度相关的课题其实是迁移学习, 元学习, 提高模型泛化性能, 这些方法, 本质是在不对数据使用量进行限定的情况下, 如何让同一模型用到更广泛的数据分布和更多的任务, 因此它们是一颗硬币的两面。多一分泛化能力,就少一点数据成本。 那么, 小样本学习究竟有没有可能?这个问题其实是细思恐极。因为这个命题就像永动机一样, 似乎违反了能量守恒。不应该是有多少数据, 有多少模型效果吗?这里事实上一被忽略的盲点是先验知识, 二被忽略的是盲点是数据利用效率。 如果没有任何先验知识, 当然是有多少数据有多少模型。然而, 如果先验知识是充足的, 那么其实可以数据不足, 知识来凑。另一条路则是提高单位数据的使用效率,