统计学 | 易学教程

第一讲课程介绍

阅读更多关于第一讲课程介绍

随机现象：个别实验结果呈现不确定性，大量重复实验又具有统计规律性的现象概率论：是一门揭示随机现象统计规律性的数学学科统计学：是一个门通过收集、整理、分析数据等手段以达到推断或预测考察对象本质或未来的学科来源： https://www.cnblogs.com/greatljg/p/11787762.html

虽然我也粗读过统计学的几本书，但从易懂性来说，都没有学校老师给的ppt好，或者说自己看书比较困难，但是听老师讲课就很容易懂。所以，我建议有条件的同学能够选修统计学这门课，没条件的同学可以去网上找一些相关视频，配套书籍可以选择茆诗松的《概率论与数理统计》。另外，《Head First Statistics》一书可以用来预热。学了统计学，你至少应该知道：基本的抽样方法数据分布的描述统计量有哪些？一组样本数据分布的数值特诊可以从三个方面进行描述：描述水平的统计量：数据的水平：也称为集中趋势或位置度量，反应全部数据的数值大小。均值、中位数、分位数、众数描述差异的统计量数据的差异：反应数据间的离散程度。极差和四分位差、方差和标准差、变异系数、标准分数描述分布形状的统计量分布的形状：反应数据分布的偏度和峰度。偏度系数、峰度系数你需要了解一些重要的分布，比如正态分布、chi-square分布、t分布、F分布等。假设检验是用来做什么的、置信区间的概念、MSE （Mean Squared Error）均方误差、RMSE（Root Mean Squard Error）均方根误差、MAE(平均绝对误差)、R-squared（拟合优度）的含义等等。怎样进行数据预处理怎样整理和显示数据你需要了解各种图的作用和适用场景，常用图包括条形图、饼图、直方图、折线图、箱线图、散点图

机器学习第二章比较检验

阅读更多关于机器学习第二章比较检验

置信水平（置信度）是指总体参数值落在样本统计值某一区内的概率，一般用1-α表示，α表示显著度；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。例如，样本数目不变的情况下，做一百次试验，有95个置信区间包含了总体真值，置信度为95%。图中1-α反应了结论的置信度，直观来看，对应于图中的非阴影区域等式的右边表示的是将超过基准错误个数的每种情况的样本误分类的概率加起来（阴影部分）应当小于某个显著度α t分布又叫student-t分布，常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值。（如果总体的方差已知的话，则应该用正态分布来估计总体的均值。）(所以一个前提是：t分布的样本的总体必须符合正态分布）假设X服从标准正态分布即X ~ N(0,1)，Y服从自由度n的卡方分布即Y ~ χ2（n），且X与Y是相互独立的，则称的分布为自由度为n的t分布，记为Z~t（n）； t分布的性质：自由度n越小，t分布曲线越低平；自由度n越大，t分布曲线越接近标准正态分布（u分布）曲线，当自由度无限大时，t分布就成了正态分布。卡方分布：若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布

如何有效自学或复习高等数学

阅读更多关于如何有效自学或复习高等数学

从去年开始，机器学习、AI的概念与思潮席卷全球各个行业，现在几乎各个行业的各大公司都希望沾上机器学习的概念，具体例子就是：电商智能推荐，基金智能推荐，音乐智能推荐，当然还有愈来愈热的自动驾驶概念。然而机器学习虽然属于IT范畴，但是与指令为中心的编程语言不同，机器学习是以数据为中心，无论是有监督，无监督还是强化学习，都是依赖具体的算法，甚至就是公式，针对海量数据进行训练再训练，然后通过真实数据进行验证训练结果的迭代过程。啰嗦了这么多，就是想说明，机器学习最难以迈过的门槛，就是数学，包括：高等数学，线性代数，概率论与统计。（我的理解是线性代数是数据的载体，高等数学如同基础API，概率论与统计是承载机器学习算法的Framework。如果理解有误，请予以指正，哈哈这里着重说一说如何自学或复习高等数学。首先先买书吧，这一步是少不了的，推荐同济大学的高等数学，目前是第七版。高等数学同济版在买书回来之前，我的建议是最好把高中数学再翻一遍，如基础三角函数，向量等知识，然后就是“学习高等数学：从入门到放弃”的过程了。我的经验是，如果没有一起学习的小伙伴，每天工作这么繁忙，回去还要阅读高等数学并完成课外习题，其实是很艰辛的。不过好在现在是互联网时代，我们可以寻求名教授的帮助，如果有大学上课一样的感觉，只要您没有顺势进入梦乡，相信一定比自己与教材硬肝要有效的多。不清楚大家知道不知道B站

信息论、贝叶斯及机器学习

阅读更多关于信息论、贝叶斯及机器学习

信息论及贝叶斯引言 1956年，让机器来做聪明的事情的科学被称为“人工智能”。直到1997年，人类才创造出来能下象棋的电脑并打败了世界冠军。通过这样的一个例子及数字计算机的发展历史表明，感知其实是一个很难解决的问题。但是，我们的脑却能够很简单的解决这个问题，这是否意味着，数字计算机不是人脑的一个好隐喻？或者，我们需要为计算机的运行找新的运算方式？同时信息论的发展使得我们看到物理事件和电脉冲是如何转化为精神事件和讯息的。但是，在其最初表达中存在一个根本的问题。一条信息中的信息量，或者更通俗的说，任何刺激中的信息量完全由那个刺激源来决定，这种界定信息的方法看上去很完美，实际上会产生自相矛盾的结果。比如在图像的处理中，图片是由像素点组成的，以此形成不同的颜色。比如看这样一张图片，它是一张简单的以白色为背景的黑色正方形的图片，这张图片中的哪些要素含有最多的信息？当我们的眼睛扫过一个颜色不变的区域的时候，因为没有任何的改变，就不会产生任何的惊奇感。而当我们眼睛扫到边缘的时候，颜色突然变化，我们就会感到“惊奇”。因此，根据信息论，图片的边缘所含的信息量是最大的，这和我们的直觉也确实是相符的，假如我们用轮廓来代替这个物体，换句话说，只留下有信息的边缘，我们仍然能够认出这个物体。但是，这种表述实际上是自相矛盾的，按照这种界定，当我们用眼睛扫一幅图片的时候，我们预测不到接下来会发生什么

机器学习从心开始之001

阅读更多关于机器学习从心开始之001

算法，程序，数据，评估，应用数据挖掘，模式识别，计算机视觉，语音识别，自然语言识别，统计学习 1：数据收集与预处理 2：特征选择与模型构建 3：评估与预测 1：机器学习本质包含了数学原理推导与实际应用技巧 2:机器学习有很多经典算法，既然要学习就要清楚一个算法是怎么来的（推导）以及该如何应用 3：数学不要全盘复习，现学现查 1：最好的资源、数据：github,kaggle 2:案例的积累，主要就是在模仿，先模仿再创作重中之重：推导算法文章来源: 机器学习从心开始之001

【机器学习】几种相似度算法分析

阅读更多关于【机器学习】几种相似度算法分析

最近开始研究推荐系统，其中常见的相似度算法有以下几种： 1. 欧几里得距离欧几里得度量（euclidean metric）（也称欧氏距离）是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。注意事项： a.因为计算是基于各维度特征的绝对数值，所以欧氏度量需要保证各维度指标在相同的刻度级别，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能使结果失效。 b.欧几里得距离是数据上的直观体现，看似简单，但在处理一些受主观影响很大的评分数据时，效果则不太明显；比如，U1对Item1,Item2 分别给出了2分，4分的评价;U2 则给出了4分，8分的评分。通过分数可以大概看出，两位用户褒Item2 ,贬Item1，也许是性格问题，U1 打分更保守点，评分偏低，U2则更粗放一点，分值略高。在逻辑上，是可以给出两用户兴趣相似度很高的结论。如果此时用欧式距离来处理，得到的结果却不尽如人意。即评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度。 2. 皮尔逊相关系数 Pearson 相关系数是用协方差除以两个变量的标准差得到的，虽然协方差能反映两个随机变量的相关程度（协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关）

机器学习汇总

阅读更多关于机器学习汇总

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/ 人脸素描数据集【CUHK】 http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html 自然语言推理(文本蕴含标记)数据集【NYU】 https://www.nyu.edu/projects/bowman/multinli/ Berkeley图像分割数据集BSDS500【Berkeley】 https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html 宠物图片(分割)数据集【Oxford】 http://www.robots.ox.ac.uk/~vgg/data/pets/ 发布ADE20K场景感知/解析/分割/多目标识别数据集【MIT】 https://groups.csail.mit.edu/vision/datasets/ADE20K/ 多模态二元行为数据集【GaTech】 http://www.cbi.gatech.edu/mmdb/ 计算机视觉／图像／视频数据集 Fashion-MNIST风格服饰图像数据集【肖涵】 https://github.com

机器学习第二章比较检验

阅读更多关于机器学习第二章比较检验

置信水平（置信度）是指总体参数值落在样本统计值某一区内的概率，一般用1-α表示，α表示显著度；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。例如，样本数目不变的情况下，做一百次试验，有95个置信区间包含了总体真值，置信度为95%。图中1-α反应了结论的置信度，直观来看，对应于图中的非阴影区域 t分布又叫student-t分布，常常用于根据小样本来估计呈正态分布且方差值为知的样本的均值。（如果总体的方差已知的话，则应该用正态分布来估计总体的均值。）(所以一个前提是：t分布的样本的总体必须符合正态分布）假设X服从标准正态分布即X ~ N(0,1)，Y服从自由度n的卡方分布即Y ~ χ2（n），且X与Y是相互独立的，则称的分布为自由度为n的t分布，记为Z~t（n）； t分布的性质：自由度n越小，t分布曲线越低平；自由度n越大，t分布曲线越接近标准正态分布（u分布）曲线，当自由度无限大时，t分布就成了正态分布。标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布假设有如下t分布正态分布的期望是100，方差是125，则可以计算出此时的t = 4。t=4之后的曲线下面积其实就是 Pֵ ，若计算的P = 0.01，如果我们要求5%的显著水平

统计学基础之回归分析

阅读更多关于统计学基础之回归分析

目录：（来源：百度百科等）一、一元线性回归二、多元线性回归一、一元线性回归　　一元线性回归是分析只有一个自变量（自变量x和因变量y）线性相关关系的方法。一个经济指标的数值往往受许多因素影响，若其中只有一个因素是主要的，起决定性作用，则可用一元线性回归进行预测分析。回归分析是研究某一变量（因变量）与另一个或多个变量（解释变量、自变量）之间的依存关系，用解释变量的已知值或固定值来估计或预测因变量的总体平均值。　　一元线性回归分析预测法，是根据自变量x和因变量Y的相关关系，建立x与Y的线性回归方程进行预测的方法。由于市场现象一般是受多种因素的影响，而并不是仅仅受一个因素的影响。所以应用一元线性回归分析预测法，必须对影响市场现象的多种因素做全面分析。只有当诸多的影响因素中，确实存在一个对因变量影响作用明显高于其他因素的变量，才能将它作为自变量，应用一元相关回归分析市场预测法进行预测。预测模型为：式中， x t 代表t期自变量的值；建立模型： 1、选取一元线性回归模型的变量； 2、绘制计算表和拟合散点图； 3、计算变量间的回归系数及其相关的显著性； 4、回归分析结果的应用模型的检验： 1、经济意义检验：就是根据模型中各个参数的经济含义，分析各参数的值是否与分析对象的经济含义相符； 2、回归标准差检验； 3、拟合优度检验； 4、回归系数的显著性检验。（待完善） 1

订阅统计学