统计学

如何自学人工智能路径规划(附资源,百分百亲身经验)

人走茶凉 提交于 2019-12-06 16:14:50
下面的每个资源都是我亲身学过的,且是网上公开公认最优质的资源。 下面的每个学习步骤也是我一步步走过来的。希望大家以我为参考,少走弯路。 请大家不要浪费时间找非常多的资料,只看最精华的! 综述,机器学习的自学简单来说分为三个步骤 前期:知识储备包括数学知识,机器学习经典算法知识,编程技术(python)的掌握 中期:算法的代码实现 后期:实战水平提升 机器学习路径规划图 一、数学基础 很多人看到数学知识的时候就望而却步,数学是需要的,但是作为入门水平,对数学的要求没有那么的高。 假设你上过大学的数学课(忘了也没事),需要的数学知识啃一啃还是基本能理解下来的。 1.1、数学内容 线性代数:矩阵/张量乘法、求逆,奇异值分解/特征值分解,行列式,范数等 统计与概率:概率分布,独立性与贝叶斯,最大似然(MLE)和最大后验估计(MAP)等 优化:线性优化,非线性优化(凸优化/非凸优化)以及其衍生的如梯度下降、牛顿法等 微积分:偏微分,链式法则,矩阵求导等 信息论、数值理论等 上面的看不太懂没事,不是特别难,学习一下就能理解了。 1.2、数学资源 网上有很多人会列举大量大量的课程资源,这是非常不负责任的事,学完那些我头发都得白了。 实际上,我们只需要学习其中的一部分就够了。 1.2.1、吴恩达的斯坦福大学机器学习王牌课程CS229,课后就有对学生数学知识的要求和补充,这些数学知识是 来源:

logistic回归介绍以及原理分析

女生的网名这么多〃 提交于 2019-12-05 21:59:55
1.什么是logistic回归? logistic回归虽然说是回归,但确是为了解决分类问题,是二分类任务的首选方法,简单来说,输出结果不是0就是1 举个简单的例子: 癌症检测:这种算法输入病理图片并且应该辨别患者是患有癌症(1)或没有癌症(0) 2.logistic回归和线性回归的关系 逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。 逻辑回归假设因变量 y 服从二项分布,而线性回归假设因变量 y 服从高斯分布。 因此与线性回归有很多相同之处,去除Sigmoid映射函数的话,逻辑回归算法就是一个线性回归。 可以说,逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题。 换种说法: 线性回归,直接可以分为两类, 但是对于图二来说,在角落加上一块蓝色点之后,线性回归的线会向下倾斜,参考紫色的线, 但是logistic回归(参考绿色的线)分类的还是很准确,logistic回归在解决分类问题上还是不错的 3.logistic回归的原理 Sigmoid函数: 曲线: 我们希望随机数据点被正确分类的概率最大化,这就是最大似然估计。 最大似然估计是统计模型中估计参数的通用方法。 你可以使用不同的方法(如优化算法

统计学基础知识(一)---描述统计学(Descriptive Statistics)

↘锁芯ラ 提交于 2019-12-05 19:47:08
描述统计学(Descriptive Statistics):将数据的信息以表格, 图形或数值的形式进行汇总。 数据类型:分为定量数据(数值型数据)和定性数据(类别型数据)。数值型数据又可以分为连续型和离散型,类别型数据又可以分为有序型和无序型。 定性数据: 频数(frequency) :数据出现的次数。 相对频数(relative frequency) :数据出现的次数/总次数。 百分数(percentage) :数据出现的次数/总次数*100%。 定量数据: 平均数(mean) :总数值除以总数。总体均值---μ;样本均值--- 。 注:这里说的平均数是算术平均数,其他还有加权平均数(weighted mean),几何平均数(geometric mean)和调和平均数。 中位数(median) :将所有数据按升序排列,当数据个数是奇数时,中位数就是位于中间的数值,当数据个数是偶数时,中位数就是位于中间的两个数值的平均值。 众数(mode) :出现次数最多的数据。 四分位数(quartile) :将所有数据按升序排列,然后等分为四部分,处在25%位置上的数值称为下四分位数Q1,处在50%位置上的数值称为Q2,处在75%位置上的数值称为上四分位数Q3。 极差(range) :最大值-最小值。 四分位间距(interquartile range, IQR) :第三分位数(Q3)

机器学习算法介绍

不打扰是莪最后的温柔 提交于 2019-12-05 05:16:35
转载:https://blog.csdn.net/xiaochendefendoushi/article/details/81905111 在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。 因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。 当然,你尝试的算法必须和你的问题相切合,其中的门道便是机器学习的主要任务。打个比方,如果你想打扫房子,你可能会用到吸尘器、扫帚或者拖把,但你肯定不会拿把铲子开始挖坑吧。 对于渴望了解机器学习基础知识的机器学习新人来说,这儿有份数据科学家使用的十大机器学习算法,为你介绍这十大算法的特性,便于大家更好地理解和应用,快来看看吧。 1. 线性回归 线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。 由于预测建模主要关注最小化模型的误差,或者以可解释性为代价来做出最准确的预测。 我们会从许多不同领域借用、重用和盗用算法,其中涉及一些统计学知识。 线性回归用一个等式表示,通过找到输入变量的特定权重(B),来描述输入变量(x)与输出变量(y)之间的线性关系。 Linear Regression 举例:y

【机器学习】机器学习入门03 - 数据归一化

我是研究僧i 提交于 2019-12-04 20:39:08
1. 数据归一化 1.1 医疗事故? ——之前的kNN算法哪里出了问题? 在之前讲kNN算法时我们举过的肿瘤的例子中,有一个问题,也许很多读者没有考虑过。 回顾一下,kNN算法的第一步是求最为邻近的k个点,也就是要先求每个数据点与待预测的数据点的距离。我们仍然以p=2的明可夫斯基距离(欧拉距离)为例。肿瘤的实例中,数据点的两个坐标值是发现时间和肿瘤大小,我们所要求的其实就是这样一个表达式的值并进行大小比较。 为了后续表达简单,我们将上式简写如下: 好了,新的病人来了,做个检查吧。 哔~~~ 肿瘤直径:140mm 发现时间:0.8年 嗯,是时候检验一下我们kNN算法的功力了。简单点,我们假设原本的数据点只有2个,k=1。来看一下原本的两个数据点: 肿瘤1 肿瘤直径:150mm 发现时间:1年 肿瘤2 肿瘤直径:139mm 发现时间:5年 好吧,你聪明的,告诉我,你选1还是选2? 虽然我不懂医学,数据也都是我编的,我也不知道这样的直径和时间是否合理。但是,同样不懂医学的你,我相信和我一样,肯定选1嘛。 肿瘤1和这个新肿瘤差了两个多月,长大了10个毫米,讲道理应该已经十分相似咯。肿瘤2多长了4个年头还不如这新肿瘤大,肯定不能选嘛。 好吧,姑且认为你和我达成了共识,anyway,我们亲手打造的kNN算法不这么觉得。 算距离嘛,我们也会。我们来看看kNN算法会发生什么。 纳尼?D 2 更近?

完全实验|不完全实验|

妖精的绣舞 提交于 2019-12-04 06:13:18
实验设计 统计学是线索和思路。在查阅大量文献,心中有因果的情况下,再用统计学验证。 随机误差是动物本身存在差异。系统误差( treatment )其次,自然环境如温度、 湿度、光照、通风等存在差异 第三,饲养管理条件存在差异,第四,试验人员操作技术上存在差异 完全实验是将矩阵填满才可以得到结论,而不将矩阵填满就可以得到结论是不完全实验,比如正交试验。 因素选择:在某个区间内,过高过低没意义,差异适当,差异过小没意义,可以使用等差法,等比法(浓度相关)或随机法来设定因素。 Fisher 实验设计三大原则: 1. 重复,即当 n 变大时,标准误差变小标准误的表达如下: 2. 随机化 3. 局部控制(为了降低 SE ) + 假设检验 来源: https://www.cnblogs.com/yuanjingnan/p/11835847.html

2019年11月10日统计学王菲

|▌冷眼眸甩不掉的悲伤 提交于 2019-12-04 04:29:29
A1.一个数据文件包含下列数据,5个家庭没有汽车(编码为0);20个家庭拥有一辆汽车(编码为1);10个家庭拥有两辆车(编码为2)。指出下列哪种统计量适用于描述该数据并计算出该统计量的值: A. 拥有汽车数的众数 B. 拥有汽车数的中位数 C. 拥有汽车数的方差 D.变异系数 B2.为了生成某个给定变量的总和(即“otal”),应该选用哪一个汇总统计量 A. mean B. sum C. median D.mode B3.假设有数据如图3-45所示,如果需要求出a、b、c这3个变量的均值,并且希望在所有缺失值的情况下尽可能地利用已有数据的信息求出均值。在SPSS中,选择哪个函数可以达到要求 A. mean(a,b,c) B. mean.2(a,b,c) C. mean2(ab,c) D.(a+b+c)/3 4.在(图形)菜单中重新做出3.6节的统计图形,比较这两种绘制统计图形的方法的异同点 5.指出均值众数中位数这三个描述,数据中心趋势的指标的区别及优缺点 6.说明茎叶图和直方图区别,如果想尽可能展现原始数据的信息,应该采用哪一种图形? 7.说明他类图和直方图的区别 帕累托图适应于分类数据,它是一种排序的条形图;而直方图适用于尺度数据 A8.指出哪种衡量中心趋势的指标适宜用于描述下列属性,如果有两个以上的指标都可以,请指出哪个指标可以反映更多的信息量: A.姊妹的兄弟的个数 B

机器学习案例实战(4)——Kaggle竞赛案例-泰=泰坦尼克号获救预测

不问归期 提交于 2019-12-04 00:29:52
1 表格数据中显示label列0未获救,1是获救。pclass是舱位等级。姓名,性别,年龄,sibsp:兄弟姐妹个数,船票编号,父母,价位,不同的上传地点。有了这些数据进行一个二分类。 2 用程序分析 使用ipython notebook比较方便可视化,便于展示。其他也可以。 pandas库是做分析处理的,先导入pandas库。pandas.read_csv(“”)把数据读进来就是一个行和列的结构,把这个赋给了一个变量titanic。通过变量调.head,即titanic.head()打印出前几行,5是默认的,想显示出几行括号中写几。 继续对titanic调describe,titanic.describe,按列统计特征,passenger总个数,均值,方差,最大值最小值。age列个数少,说明有缺省。 机器学习算法要求 输入的要求是一个矩阵,有缺失值之后就做不成矩阵了。 所以需要对数据进行预处理, 第一步:对缺失值进行填充,用均值填充。fillna就是填充,就是用age均值对age列进行填充。然后再describe,看到是891个。 3 机器学习不能处理string值,需要转换成int值或者float,成为机器学习可以处理的数值型的。0表示male,1表示female。 print titanic[“sex”].unique(),看这一列有几种可能性。 第二步:数值转换

一、《集体智慧编程》之机器学习&数据挖掘框架认识

廉价感情. 提交于 2019-12-03 21:03:02
前言:新开通的博客,用于记录一些学习方面的东西,算是一个学习笔记吧。本系列按照《集体智慧编程》一书的框架进行。老实说,《集体》在理论上并不算是很好的参考书,但是该书是以一个个具体场景应用为驱动的,个人认为很适合用于机器学习相关的入门教材,起码很对我的胃口。 “假如你训练了一只狗,若干年后,如果它忽然有一天能帮你擦鞋洗衣服,那么这就是数据挖掘;要是忽然有一天,你发现狗化装成一个老太婆消失了,那么这就是机器学习。” ——杨强,香港科技大学 机器学习说起来应该是人工智能领域与算法领域的一个子领域。它允许计算机不断的进行学习。大多数情况下,这相当于将一组数据传递给算法,并由算法推断出这些数据属性相关的信息——借助这些信息,算法能够预测出未来有可能出现的其他数据。简单点来说就是从数据中自动分析获得规律,并利用规律对未知数据进行预测。 数据挖掘在某方面可以说算是机器学习的一种应用。机器学习算法其它的方面的应用有计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺骗、证券市场分析、DNA序列测序、语音和手写字识别、战略游戏和机器人运用等。 1、机器学习&数据挖掘的数学基础 机器学习是一个多领域交叉的学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。具体来说,机器学习与数据挖掘学习需要用到的数学核心基础有以下几个方面: ①微积分 (没办法,这个是数学分析的基础)

缺失值|回归分析|协变关系|

我怕爱的太早我们不能终老 提交于 2019-12-03 12:25:22
生物统计与实验设计 不能达到所有样本都是同一条件,所以假设检验条件严格。缺失值弥补,误差的平方和最小。 使得 SE 最小,令导数为零。但是不推荐使用,违背生物学原则。 有一点必须明确,缺失数据估计并 不能恢复原来的数据,只能是补足后不致于干扰其余数据,估计的数据并不能提出任何新的信息,因此,试验中应尽量避免这类情况发生。 回归分析: 回归分析不能解决因果关系。 协变关系是确定的函数关系,而相关信息是不确定的函数关系。 相关关系分为因果(将会被推翻)和平行,因果和平行将会统一。 将散点图的直观印象转化为数学表达。 y 是估计值,表示一个分布,使用最小二乘法求导得系数。使用该回归函数时要注意取值范围。与方差分析相比,β的差异与方差分析由差异本身造成,回归分析中的β由 x 造成。 来源: https://www.cnblogs.com/yuanjingnan/p/11796018.html