贝叶斯

缺失值填写

倖福魔咒の 提交于 2021-02-16 19:26:40
空值填充算法 简介 造成数据缺失的原因 现实世界中的数据异常杂乱,属性值缺失的情况经常发全甚至是不可避免的。造成数据缺失的原因是多方面的: 信息暂时无法获取。例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,就致使一部分属性值空缺出来。 信息被遗漏。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。 有些对象的某个或某些属性是不可用的。如一个未婚者的配偶姓名、一个儿童的固定收入状况等。 有些信息(被认为)是不重要的。如一个属性的取值与给定语境是无关。 获取这些信息的代价太大。 系统实时性能要求较高。即要求得到这些信息前迅速做出判断或决策。 缺失的类型 在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。从缺失的分布来将缺失可以分为完全随机缺失,随机缺失和完全非随机缺失。 完全随机缺失(missing completely at random,MCAR):指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。如家庭地址缺失。 随机缺失(missing at random,MAR):指的是数据的缺失不是完全随机的

机器学习之样本不均衡

余生长醉 提交于 2021-02-16 17:46:28
以下内容是个人通过查阅网上相关资料总结出的内容 具体说明数据不均衡会带来的问题: 1) 在一个二分类问题中,训练集中 class 1的样本数比class 2的样本数是60:1。使用逻辑回归进行分类, 最后训练出的模型可能会忽略了 class 2,即模型可能会将所有的训练样本都分类为class 1。 2)在分类任务的数据集中,有三个类别,分别为A,B,C。在训练集中,A类的样本占70%,B类的样本占25%,C类的样本占5%。最后我的 分类器对类 A的样本过拟合了,而对其它两个类别的样本欠拟合。 那么该如何解决这种样本不均衡问题? 1) 过抽样 抽样是处理不平衡数据的最常用方法, 基本思想就是通过改变训练数据的分布来消除或减小数据的不平衡。 过抽样方法通过增加少数类样本来提高少数类的分类性能 , 最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。 改进的过抽样方法通过在少数类中加入随机高斯噪声或 产生新的合成样本 等方法。 如何解决过采样中只是简单的复制少数类样本所带来的过拟合缺点? 采用过采样的典型算法 SMOTE(它是通过对训练集里的小样本类别进行插值来产生额外的小样本类别数据) 2) 欠抽样 欠抽样方法通过减少多数类样本来提高少数类的分类性能,最 简单的方法是通过随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类的一些重要信息

机器学习常见算法

强颜欢笑 提交于 2021-02-14 12:56:11
一 线性回归 链接:https://www.cnblogs.com/LUOyaXIONG/p/10690191.html 二 逻辑回归 链接:https://www.cnblogs.com/LUOyaXIONG/p/10697596.html 三 k-近邻算法 链接:https://www.cnblogs.com/LUOyaXIONG/p/10698121.html 四 决策树 链接:https://www.cnblogs.com/LUOyaXIONG/p/10705304.html 五 随机森林 链接:https://www.cnblogs.com/LUOyaXIONG/p/11528575.html 六 支持向量机 链接:https://www.cnblogs.com/LUOyaXIONG/p/10686824.html 七 朴素贝叶斯 链接:https://www.cnblogs.com/LUOyaXIONG/p/10702288.html 八 EM算法 链接:https://www.cnblogs.com/LUOyaXIONG/p/10703120.html 九 Adaboost 链接:https://www.cnblogs.com/LUOyaXIONG/p/10951438.html 十 GBDT 链接:https://www.cnblogs.com/LUOyaXIONG

常见机器学习算法背后的数学

三世轮回 提交于 2021-02-14 12:13:45
不同的机器学习算法是如何从数据中学习并预测未见数据的呢? 机器学习算法是这样设计的,它们从经验中学习,当它们获取越来越多的数据时,性能就会提高。每种算法都有自己学习和预测数据的方法。在本文中,我们将介绍一些机器学习算法的功能,以及在这些算法中实现的有助于学习过程的一些数学方程。 机器学习算法的类型 机器学习算法大致可以分为以下四类: 监督学习:预测的目标或输出变量是已知的。这些算法生成一个函数,该函数将输入映射到输出变量。回归和分类算法属于这一类。在回归中,输出变量是连续的,而在分类中,输出变量包含两个或更多的离散值。一些监督学习算法包括线性回归,逻辑回归,随机森林,支持向量机,决策树,朴素贝叶斯,神经网络。 无监督学习:目标或输出变量是未知的。这些算法通常对数据进行分析并生成数据簇。关联、聚类和维数约简算法属于这一类。K-means聚类、PCA(主成分分析)、Apriori算法等是非监督学习算法。 半监督学习:它是监督和非监督学习方法的结合。它使用已知数据来训练自己,然后标记未知数据。 强化学习:机器或代理被训练从“试错”过程中学习。机器从过去的决策经验中学习,并利用它的学习来预测未来决策的结果。强化学习算法的例子有Q-Learning, Temporal Difference等。 线性回归 线性回归是通过拟合数据点上的最佳直线来预测连续变量的结果

15分钟入门蒙特卡洛 Monte Carlo

落爺英雄遲暮 提交于 2021-02-14 02:31:00
↑↑↑点击上方 蓝字 ,回复 资料 ,10个G的惊喜 来自 | 知乎 作者 | 薛定豆 编辑 | 深度学习这件小事公众号 链接 | https://zhuanlan.zhihu.com/p/223042372 20世纪40年代,蒙特卡洛(Monte Carlo, 位于摩纳哥的赌城,如上图)方法由John von Neumann,Stanislaw Ulam和 Nicholas Metropolis 在 Los Alamos National Lab (LANL) 曼哈顿计划中,为模拟中子扩散发展出的一种统计方法。正如名字反映出的,蒙特卡洛方法本质上是跟赌博一样具有随机特性。 一、估计圆周率 的值 如果(x,y)是独立地从0到1之间均匀分布抽样出的一系列的数对number pair, 那么这些随机的位置坐标(x,y)落在1为半径圆弧内的概率应该是:四分之一圆的面积➗整个正方形的面积: 而因为(x,y) 是0到1的均匀分布,所以这个概率当抽样足够多的时候就等于红色的点数除以总共点数: 这样一来,只要采样足够多,就可以得到无限趋近于 的值。这个例子很好的体现了Monte Carlo(MC)方法的精神:利用随机分布的特性,大数次抽样得到准确的估计。换句话说,就是我猜,我猜地又多又均匀就基本上成功了! 二、估计定积分的值 微积分里我们学到,定积分(也就是曲线下的面积

Nature评论:科学家联名反对统计学意义

杀马特。学长 韩版系。学妹 提交于 2021-02-13 10:34:19
导语 统计数据如何经常导致科学家否认那些未经统计学教育的人能够明白地看到的差异?几代人一直警告研究人员,统计学上无显着性的结果并不能“证明”零假设(假设组之间没有差异或治疗对某些测量结果没有影响)。统计上显着的结果也没有“证明”某些其他假设。这种误解已经引起了人们的夸大,文献中夸大其词,并且不那么着名,导致了不存在研究之间冲突的主张。 我们有一些建议让科学家不要成为这些误解的牺牲品。 普遍问题 让我们清楚一下必须停止什么:我们永远不应该仅仅因为P值大于0.05之类的阈值而得出“没有差异”或“没有关联”,或者等价,因为置信区间包括零。我们也不应该断定两项研究之间存在冲突,因为一项研究结果具有统计学意义,另一项则没有。这些错误会浪费研究工作并误导政策决策。 'w1} + f $ q&D&W,m 例如,考虑对抗炎药物的意外影响进行一系列分析。因为他们的结果在统计学上是不显着的,一组研究人员得出结论,接触药物与新发房颤(最常见的心律紊乱)“无关”,结果与之相反。早期研究具有统计学意义的结果。 ,h2 n6 _2 z(f)J * n7 l“q &S * m8 m; j%X5 m6 N1 X2 h 现在,我们来看看实际数据。研究人员描述了他们在统计学上无显着性的结果,发现风险比为1.2(即暴露患者相对于未暴露患者的风险增加20%)。他们还发现95%的置信区间跨越了从微不足道的风险降低3

机器学习小白必知必会

依然范特西╮ 提交于 2021-02-12 04:22:41
机器学习是一门多领域交叉学科,需要很多知识储备。 对于机器学习,很多人也只是一知半解,想要知其然、究其实,但是面对各种各样的书籍、文章却无从下手,摸不清门路。 小白该具备哪些知识点呢? 01 概念初识 机器学习领域内有很多专业术语,如繁星一般,穿插在各种技术文档、文献、书籍等资料中。学习机器学习的第一步就是了解这些专业术语,能够“读懂”各类文档。下面是一些比较常见的概念和定义: 实例: 表示具体的一件事物,可以是一本书,一只鸟等等,实例具有诸多属性,比如鸟的羽毛颜色、翅膀长度、鸟喙形状等等,我们可以凭借这些属性来判断鸟属于什么种类。 标签: 标签表示我们所关注的实例的“结果”或者“类型”,它是机器学习系统中预测的结果,或者是训练数据中所标识的正确答案。比如一本书可能是中文图书,也可能是外文图书,这就是这本书的标签或者说分类。 属性: 属性表示实例本身所具有的特性,实例与属性密不可分。实例往往具有很多属性,而在机器学习过程中,我们只关注对实例打标签有意义的属性。比如在判断书属于什么种类时,很明显出版时间这一属性对我们做决策并没有太大意义。 样本: 样本代表实例和实例标签的结合,用于模型训练和效果测试。在模型训练过程中,我们用大量实例的属性值(或特征)以及标签去调节模型中的参数,在测试阶段,使用训练好的模型输入实例的属性值,将模型的预测结果与对应实例的标签做对比。 大数据:

《凸优化》中文PDF习题题解+《人工智能一种现代的方法第3版》中文PDF+英文PDF

点点圈 提交于 2021-02-11 18:41:56
人工智能学习过程中必须掌握线性代数、微积分、概率论、优化理论等知识,在优化方面感觉《凸优化》翻译得很好,是原理和应用的一个很好的折中,两方面都有太多值得深挖的东西。 机器学习会涉及到优化内容,凸优化内容非常丰富。理论部分不仅涵盖了凸优化的所有基本概念和主要结果,还详细介绍了几类基本的凸优化问题以及将特殊的优化问题表述为凸优化问题的变换方法,这些内容对灵活运用凸优化知识解决实际问题非常有用;应用部分分别介绍凸优化在解决逼近与拟合、统计估计和几何关系分析这三类实际问题中的应用;算法部分依次介绍求解无约束凸优化模型、等式约束凸优化模型以及包含不等式约束的凸优化模型的经典数值方法,以及如何利用凸优化理论分析这些方法的收敛性质。 学习参考《凸优化》中文版PDF+英文版PDF+习题题解 《凸优化》中文PDF,715页,带书签目录;英文PDF,732页,带书签目录;配套习题题解。 下载: https://pan.baidu.com/s/1NLcyJ4JEwlSqwJ2dWGHx3Q 提取码: 24f8 主要是面向实际应用,提供了凸优化的理论框架,但不强调复杂的定理证明。丰富的实例是其特色。实例涉及的领域非常广例如通信,金融,机器学习等等。 个人觉得收获的不只是知识,更重要的是思维方式在潜移默化中得到锻炼和提升。在这个过程中可以学习到如何问问题、判断问题的价值

常见路径规划算法

删除回忆录丶 提交于 2021-02-11 13:57:34
路径规划的一般步骤:构建环境、搜索、平滑处理;环境构建:C-空间,自由空间、Voronoi图、栅格法;搜索算法在下面逐个列出。解决的问题:全局、局部、未知环境;解决维度:二维、三维;路径搜索的连续性:离散、连续; 时间需求:实时、不是实时的;下面先列出常见的路径优化方法,后面将逐个给出算法基本思想。并且结合前人的研究成果,给出部分算法的源代码,因为个人力量有限,如果有感兴趣的,可以一起来实施相关算法的源代码,本人邮箱为:2938948067@qq.com,欢迎感兴趣的朋友一起交流。 http://blog.csdn.net/jiakeyouwe/article/details/53462920 https://en.wikipedia.org/wiki/Rapidly-exploring_random_tree https://en.wikipedia.org/wiki/Steven_M._LaValle 数学分析方法有:无向图,有向图、计算几何、线性规划、概率分析、随机采样、代数。 1、 Dijkstra算法 2、 Floyd 3、 Bellman–Ford 4、 Viterbi algorithm 5、 Johnson's algorithm 6、 Fallback 7、 神经网络算法(各种神经网络方法) 8、 禁忌算法 9、 蚁群 10、 粒子群 11、 遗传 12、

曝光中国女性的私密数据分析… ᥬ🤩 ᭄

三世轮回 提交于 2021-02-10 16:29:56
来源: 好奇博士 哈喽,各位新来的小伙伴们,大家好!由于公众号做了改版,为了保证公众号的资源能准时推送到你手里,大家记得将咱们的公众号 加星标置顶 ,在此真诚的表示感谢~ 正文如下: 上次分享了关于男性的私密数据: 关于中国男性的私密数据分析……🤫 今天分享的这篇女性私密数据,有点意(nei)思(han) 附录1: 通过女朋友还总结出一个关于女生的经验:女生让你滚,不是真的让你滚,是让你来回滚,先滚出去,一会再滚回来!你要是滚远了没滚回来,经过她一顿脑补后,就会变成:你不爱我了,分手吧! 猜你喜欢 生男生女概率一样吗?为什么中国男性多于女性? 关于中国男性的私密数据分析……🤫 贝叶斯定理的通俗理解 本文分享自微信公众号 - 数据分析挖掘与算法(ikeguang2)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina.net/u/3658210/blog/4952044