统计学 | 易学教程

统计学学习的博客转载

阅读更多关于统计学学习的博客转载

笔者最近需要学习一些频率学派的统计概率学，发现了一个简单易懂，也足够严谨的博客系列。转载如下： http://chuansong.me/n/726484852771 来源： CSDN 作者： silent56_th 链接： https://blog.csdn.net/silent56_th/article/details/78136854

数据挖掘VS机器学习？　　"数据挖掘" 与 "机器学习"是近年来经常同时出现的词语，两者有何不同呢？到底是数据挖掘涵盖机器学习，还是机器学习包括数据挖掘，各种观点莫衷一是。实际上，两者本就不是非此即彼的关系，所以大可不必拘泥于特定的称谓，从具体的业务场景、算法应用出发即可。在这里，按笔者的理解，一般是用机器学习算法来实现数据挖掘的特定需求，如是而已。 1. 机器学习概念　　---“这是最好的时代，也是最坏的时代”，如今，这是一个大数据的时代。　　提起机器学习(Machine Learning)，近年来发展的可谓如火如荼，IBM的“深蓝计算机”、Google的AlphaGo(人工智能程序)以及无人驾驶汽车等，引领我们走入了“数据科学革命”。那么何谓机器学习呢？简单来说，机器学习是一个从大量无序数据中学习和提取有用信息的过程，涉及到计算机科学、工程技术和统计学等多个学科的知识。具体而言，机器学习是一类算法的总称，这些算法企图从大量历史数据中挖掘出其中隐含的规律，用于完成特定的业务需求。目前已实现的典型应用如垃圾邮件检测、商品智能推荐、手写识别软件、贷款信用评定、实时工业监测等。 2. 机器学习步骤数据收集：多种方式收集样本数据，如：制作网络爬虫从网站上抽取数据、从API中得到信息、设备传感器发来的实测数据等等数据探索：检验数据集的数据质量、绘制图表、计算某些特征量等手段

统计学基础之回归分析

阅读更多关于统计学基础之回归分析

目录：（来源：百度百科等）一、一元线性回归二、多元线性回归一、一元线性回归　　一元线性回归是分析只有一个自变量（自变量x和因变量y）线性相关关系的方法。一个经济指标的数值往往受许多因素影响，若其中只有一个因素是主要的，起决定性作用，则可用一元线性回归进行预测分析。回归分析是研究某一变量（因变量）与另一个或多个变量（解释变量、自变量）之间的依存关系，用解释变量的已知值或固定值来估计或预测因变量的总体平均值。　　一元线性回归分析预测法，是根据自变量x和因变量Y的相关关系，建立x与Y的线性回归方程进行预测的方法。由于市场现象一般是受多种因素的影响，而并不是仅仅受一个因素的影响。所以应用一元线性回归分析预测法，必须对影响市场现象的多种因素做全面分析。只有当诸多的影响因素中，确实存在一个对因变量影响作用明显高于其他因素的变量，才能将它作为自变量，应用一元相关回归分析市场预测法进行预测。预测模型为：式中， x t 代表t期自变量的值；代表t期因变量的值；a、b代表一元线性回归方程的参数。a、b参数由下列公式求得（用代表）：建立模型： 1、选取一元线性回归模型的变量； 2、绘制计算表和拟合散点图； 3、计算变量间的回归系数及其相关的显著性； 4、回归分析结果的应用模型的检验： 1、经济意义检验：就是根据模型中各个参数的经济含义

2019软件工程实践第二次作业

阅读更多关于 2019软件工程实践第二次作业

AI，也就是人工智能，并不仅仅包括机器学习。曾经，符号与逻辑被认为是人工智能实现的关键，而如今则是基于统计的机器学习占据了主导地位。最近火热的深度学习正是机器学习中的一个子项。目前可以说，学习AI主要的是学习机器学习。但是，人工智能的学习又不等同于机器学习。人工智能思维导图由于自己还处在人工智能的了解阶段，所以制造的思维导图肯定有很多纰漏之处，当以后学习更加深入之后再将思维导图逐渐完善。五个月的时间十分短暂，自己能够学习到的人工智能相关的东西肯定很少，但无论怎么说，尽自己最大的努力吧。来源： https://www.cnblogs.com/aiqi6/p/11518704.html

机器学习常用的损失函数

阅读更多关于机器学习常用的损失函数

分类损失函数一、LogLoss对数损失函数（逻辑回归，交叉熵损失）　　有些人可能觉得逻辑回归的损失函数就是平方损失，其实并不是。平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到，而逻辑回归得到的并不是平方损失。在逻辑回归的推导中，它假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数，接着取对数求极值等等。而逻辑回归并没有求似然函数的极值，而是把极大化当做是一种思想，进而推导出它的经验风险函数为：最小化负的似然函数（即max F(y, f(x)) —> min -F(y, f(x))) 。从损失函数的视角来看，它就成了log损失函数了。 log损失函数的标准形式：　　刚刚说到，取对数是为了方便计算极大似然估计，因为在MLE（最大似然估计）中，直接求导比较困难，所以通常都是先取对数再求导找极值点。损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下，使概率P(Y|X)达到最大值（换言之，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说什么样的参数才能使我们观测到目前这组数据的概率最大）。因为log函数是单调递增的，所以logP(Y|X)也会达到最大值，因此在前面加上负号之后，最大化P(Y|X)就等价于最小化L了。　　逻辑回归的P(Y=y|x)表达式如下（为了将类别标签y统一为1和0

10 协方差矩阵与主成成分分析

阅读更多关于 10 协方差矩阵与主成成分分析

协方差矩阵由上，我们已经知道：协方差是衡量两个随机变量的相关程度。且随机变量之间的协方差可以表示为: 故根据已知的样本值可以得到协方差的估计值如下：可以进一步地简化为：如此，便引出了所谓的协方差矩阵：主成成分分析尽管从上面看来，协方差矩阵貌似很简单，可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵，这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看，也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis，简称PCA)，在图像处理中称为Karhunen-Loève 变换(KL-变换)。根据wikipedia上的介绍，主成分分析PCA由卡尔·皮尔逊于1901年发明，用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解，以得出数据的主成分（即特征矢量）与它们的权值（即特征值）。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释：哪一个方向上的数据值对方差的影响最大。然为何要使得变换后的数据有着最大的方差呢？我们知道，方差的大小描述的是一个变量的信息量，我们在讲一个东西的稳定性的时候，往往说要减小方差，如果一个模型的方差很大，那就说明模型不稳定了。但是对于我们用于机器学习的数据（主要是训练数据）

林轩田机器学习基石笔记4—Feasibility of Learning

阅读更多关于林轩田机器学习基石笔记4—Feasibility of Learning

上节课介绍了机器学习可以分为不同的类型。其中，监督式学习中的二元分类和回归分析是最常见的也是最重要的机器学习问题。本节课，我们将介绍机器学习的可行性，讨论问题是否可以使用机器学习来解决。一、Learning is Impossible 首先，考虑这样一个例子，如下图所示，有3个label为-1的九宫格和3个label为+1的九宫格。根据这6个样本，提取相应label下的特征，预测右边九宫格是属于-1还是+1？结果是，如果依据对称性，我们会把它归为+1；如果依据九宫格左上角是否是黑色，我们会把它归为-1。除此之外，还有根据其它不同特征进行分类，得到不同结果的情况。而且，这些分类结果貌似都是正确合理的，因为对于6个训练样本来说，我们选择的模型都有很好的分类效果。再来看一个比较数学化的二分类例子，输入特征x是二进制的、三维的，对应有8种输入，其中训练样本D有5个。那么，根据训练样本对应的输出y，假设有8个hypothesis，这8个hypothesis在D上，对5个训练样本的分类效果效果都完全正确。但是在另外3个测试数据上，不同的hypothesis表现有好有坏。在已知数据D上， g ≈ f；但是在D以外的未知数据上， g ≈ f不一定成立。而机器学习目的，恰恰是希望我们选择的模型能在未知数据上的预测与真实结果是一致的，而不是在已知的数据集D上寻求最佳效果。这个例子告诉我们

统计学推荐书目

阅读更多关于统计学推荐书目

生物统计与实验设计-绪论重点在于理解统计学含义而非掌握各种处理方法的细节，同时加入各种视角，无论在统计学还是生物学方面。除统计学教材外，推荐了以下书籍：其中，女士品茶：经典统计学历史（客观），可以通过历史明白如今的统计学框架的来源，以此从人的角度理解它。数理化通俗演义：故事格局和横向视角贝叶斯统计学：统计学的另一派 ; 特点是主观（即随次数微调得到的最终的概率）来源： https://www.cnblogs.com/yuanjingnan/p/11456444.html

残差

阅读更多关于残差

生物统计学-绪论统计学是利用有效方法（简单和包含最多信息）来计划和分析带有随机影响（ eg1 ：局部数据； eg2 ：残差：不能解释的误差）的数据的方法。其中有效方式是指实验设计和抽样理论。首先必须明确实验设计，它先明确问题（考虑影响和适用方法（ eg ，抽样理论）），再讨论（全面考虑相关因素），最后明确实验设计。这之后才是收集数据。关键在于理解研究的问题（这对应了对统计结果的解释）和应用统计原理（这对应了统计学意义）来源： https://www.cnblogs.com/yuanjingnan/p/11456276.html

统计学第七版学习笔记

阅读更多关于统计学第七版学习笔记

一、导论统计应用领域：企业发展战略、产品质量管理、市场研究、财务分析、经济预测、人力资源管理。统计数据的分类：按计量尺度：分类数据、顺序数据、数值型数据（★）　　　　　　　　按收集方法：观测数据、实验数据　　　　　　　　按时间状况：截面数据、时间序列数据二、数据的搜集数据来源：调查或实验调查方法分类：概率抽样：简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样　　　　　　　非概率抽样：方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样搜集数据的基本方法：自填式、面访式、电话式、观察式数据的误差：抽样误差　　　　　　非抽样误差：抽样框误差、回答误差、无回答误差、调查员误差、测量误差三、数据的图标展示数据的预处理：数据审核、筛选、排序品质数据包括分类数据和顺序数据，做分类整理　　分类数据：计算频数与频数分布，或比例、比率等。图示有条形图、帕累托图、饼图、环形图　　顺序数据：累积频数与累积频率。图示分类图示+累积频数分布或频率图数值型数据做分组整理，有单变量值分组和组距分组两种，组距分组包括等距分组和不等距分组　　图示：分组数据——直方图、未分组数据——茎叶图和箱线图、时间序列数据——线图、多变量数据——（散点图、气泡图、雷达图）四、数据的概括性度量数据分布特征：集中趋势的度量：分类数据——众数，顺序数据——中位数、四分位数，数值型数据—

订阅统计学