最大似然法 | 易学教程

机器学习之线性回归

阅读更多关于机器学习之线性回归

1.什么是线性回归线性回归，首先要介绍一下机器学习中的两个常见的问题：回归任务和分类任务。那什么是回归任务和分类任务呢？简单的来说，在监督学习中（也就是有标签的数据中），标签值为连续值时是回归任务，标志值是离散值时是分类任务。线性回归模型就是处理回归任务的最基础的模型。线性回归模型试图学得一个线性模型以尽可能准确地预测实值X的输出标记Y。在这个模型中，因变量Y是连续的，自变量X可以是连续或离散的。首先来了解一些字母的含义：m-训练集样本的数量；x-输入变量/特征；y-输出变量/要预测的目标变量；（x,y)-表示一个训练样本；（ x ( i ) x^{(i)} x ( i ) , y ( i ) y^{(i)} y ( i ) )中i上标：表示第i个训练样本，即表示表格中的第i行； x 1 x_{1} x 1 、 x 2 x_{2} x 2 、… x n x_{n} x n 表示特征向量，n表示特征向量的个数； h θ h_{\theta} h θ (x)称为假设函数，h是一个引导从x得到y的函数；举个简单的例子：输入数据：工资（ x 1 x_{1} x 1 ）和房屋面积（ x 2 x_{2} x 2 ）（两个特征）输出目标：预测银行会贷款多少钱（标签）姓名工资房屋面积可贷款金额张三 6000 58 33433 李四 9000 77

线性回归：梯度下降

阅读更多关于线性回归：梯度下降

目录： 1、什么是线性回归　　1.1 理论模型　　1.2 数据和估计 2、线性回归参数求解方法　　2.1 直接求取参数　　2.2 梯度下降法　　2.3 随机梯度下降法 3、为什么选择最小二乘为评判标准　　3.1 似然函数　　3.2 求解极大似然函数　　3.3 结论 1、什么是线性回归　　线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。 1.1 理论模型　　给一个随机样本，一个线性回归模型假设回归子和回归量之间的关系是除了X的影响以外，还有其他的变量存在。我们加入一个误差项（也是一个随机变量）来捕获除了之外任何对的影响。所以一个多变量线性回归模型表示为以下的形式：其他的模型可能被认定成非线性模型。一个线性回归模型不需要是自变量的线性函数。线性在这里表示的条件均值在参数里是线性的。例如：模型在和里是线性的，但在里是非线性的，它是的非线性函数。 1.2 数据和估计　　用矩阵表示多变量线性回归模型为下式：　　其中 Y 是一个包括了观测值的列向量，包括了未观测的随机成份以及回归量的观测值矩阵： 2、线性回归参数求解方法　　

线性回归——最大似然函数

阅读更多关于线性回归——最大似然函数

似然函数　　似然函数与概率非常类似但又有根本的区别，概率为在某种条件（参数）下预测某事件发生的可能性；而似然函数与之相反为已知该事件的情况下推测出该事件发生时的条件（参数）；所以似然估计也称为参数估计，为参数估计中的一种算法；下面先求抛硬币的似然函数，然后再使用似然函数算出线性回归的参数；　　假如有一枚硬币我们现在不知道它是否为正常硬币（正反面出现概率各位50%），所以想通过抛10次然后通过硬币正反面出现的概率分布判断该硬币是否正常；当抛完10次时出现5次正面向上、5次反面向上，正反面出现的概率符合正常硬币的预期，这时我们可以判断该硬币是正常的；　　抛硬币符合二项分布所以下面计算出概率分布情况：　　　　如图：　　　　　　　　上图中x轴为正面出现的次数，y轴为上述函数的结果　　上面式子中w为正反面出现的比例，y为正面出现的次数；使用最大似然法求硬币问题　　似然函数为知道了结果求条件，概率问题为知道了条件求概率，在这个问题中就是知道了硬币是正常的，求正反面出现的比例w为何值时该结果最靠谱；所以似然函数等于：　　　　　　函数左边的值并非条件概率中的条件而是该函数的依赖值，似然函数L为在给定结果y的情况下参数w的取值情况，概率函数L为知道了参数w求得y的取值；有了抛硬币情况的概率分布这里就可以给出似然函数：　　　

PRML学习笔记第一章

阅读更多关于 PRML学习笔记第一章

【转】模式识别的目标自动从数据中发现潜在规律，以利用这些规律做后续操作，如数据分类等。模型选择和参数调节类似的一族规律通常可以以一种模型的形式为表达，选择合适模型的过程称为模型选择（Model Selection）。模型选择的目的只是选择模型的形式，而模型的参数是未定的。从数据中获得具体规律的过程称为训练或学习，训练的过程就是根据数据来对选定的模型进行参数调节（Parameter Estimation）的过程，此过程中使用的数据为训练数据集（Training Set）。对于相同数据源的数据来讲，规律应该是一般的（泛化Generalization），因此评估一个学习结果的有效性可以通过使用测试数据集（Testing Set）来进行的。预处理对于大多数现实中的数据集来讲，使用其进行学习之前，通常需要进行预处理，以提高学习精度及降低学习的开销。以图像识别为例，若以像素做为一个特征，往往一幅图像的特征就能达到几万的数量级，而很多特征（如背景色）都是对于图像辨识起不到太大作用的，因此对于图像数据集，预处理过程通常包括维数约减（特征变换，特征选择），仅保留具有区分度的特征。文本数据分类任务中，对训练文本也有类似的处理方式，只不过此时扮演特征的是单词，而不是像素值。监督学习和非监督学习输入向量（input vector）：，响应向量（target vector）：

深度学习之最大似然估计与最小二乘（二）

阅读更多关于深度学习之最大似然估计与最小二乘（二）

一、机器学习中的最大似然、最小二乘、梯度下降　　最小二乘和极大似然估计是目标函数，梯度下降是优化算法。机器学习的核心是一个模型，一个损失函数loss fuction，加上一个优化的算法。一个目标函数可以用不同的优化算法，不同的目标函数也可以用相同的优化算法。所以最小二乘和极大似然根本不是算法，和梯度下降毫无可比性。　　PS:最小二乘和极大似然也不是对立的。最小二乘是从函数形式上来看的，极大似然是从概率意义上来看的。事实上，最小二乘可以由高斯噪声假设+极大似然估计推导出来。当然极大似然估计还可以推导出其他的loss function,比如 logistic回归中，loss function是交叉熵. 　　最大似然（MLE），最小二乘都是构造目标函数的方法，构造出这个目标函数后，我们可以用各种优化方法来找到它的极值，这些优化方法中，有一类是使用函数的梯度信息，包括一阶的方法，例如梯度下降，以及二阶的方法，例如牛顿法等。　　　对于线性回归问题，它的模型，我们采用最大似然来构造一个目标函数，最后用梯度下降来找到目标函数的最值。当然，对于这个问题，我们也可以不用梯度下降，直接用向量的投影来直接算出最优解的表达式（最小二乘）。　　实际上可以这样理解，极大似然函数（构造损失函数）+梯度下降可以解决所有回归问题，但多用于logist回归

极大似然小结

阅读更多关于极大似然小结

在机器学习中，我们经常要利用极大似然法近似数据整体的分布，本篇文章通过介绍极大似然法及其一些性质，旨在深入浅出地解释清楚极大似然法。 0. 贝叶斯概率首先看一下经典的贝叶斯公式： \[ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} \] 其中， $p(Y)$ 称为先验概率( $prior$ )，即根据先验知识得出的关于变量 $Y$ 的分布， $p(X|Y)$ 称为似然函数（ $likelihood$ ）， $p(X)$ 为变量 $X$ 的概率， $p(Y|X)$ 称之为条件概率（给定变量 $X$ 的情况下 $Y$ 的概率， $posterior$ ，后验概率）。 1. 似然函数似然，即可能性；顾名思义，则似然函数就是关于可能性的函数了。在统计学中，它表示了模型参数的似然性，即作为统计模型中参数的函数。一般形式如下： \[ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) \] 其中， $D$ 表示样本集 $\{x_1,x_2,\cdots, x_n\}$ , $\omega$ 表示参数向量。似然函数表示了在不同的参数向量 $\omega$ 下，观测数据出现的可能性的大小，它是参数向量 $\omega$ 的函数。在某种意义上

极大似然小结

阅读更多关于极大似然小结

在机器学习中，我们经常要利用极大似然法近似数据整体的分布，本篇文章通过介绍极大似然法及其一些性质，旨在深入浅出地解释清楚极大似然法。 0. 贝叶斯概率首先看一下经典的贝叶斯公式： $$ p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)} $$ 其中，$p(Y)$称为先验概率($prior$)，即根据先验知识得出的关于变量$Y$的分布，$p(X|Y)$称为似然函数（$likelihood$），$p(X)$为变量$X$的概率，$p(Y|X)$称之为条件概率（给定变量$X$的情况下$Y$的概率，$posterior$，后验概率）。 1. 似然函数似然，即可能性；顾名思义，则似然函数就是关于可能性的函数了。在统计学中，它表示了模型参数的似然性，即作为统计模型中参数的函数。一般形式如下： $$ L(\omega)=p(D | \omega) = p(x_1, x_2, \cdots ,x_n| \omega) $$ 其中，$D$表示样本集${x_1,x_2,\cdots, x_n}$, $\omega$表示参数向量。似然函数表示了在不同的参数向量$\omega$下，观测数据出现的可能性的大小，它是参数向量$\omega$的函数。在某种意义上，我们可以认为其是条件概率的逆反$^{[1]}$。在这里利用Wikipedia$^{[1]}$中的例子简要说明一下似然函数

极大似然估计

阅读更多关于极大似然估计

极大似然估计(Maximum Likelihood Method)案例 1. 问题描述假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？ 2. 问题分析给出答案：白球所占比例 $\frac{70}{100}=70%$ 。而其后的理论支撑是什么呢？我们假设罐中白球的比例是 $p$ ，那么黑球的比例就是 $1-p$ 。因为每抽一个球出来，在记录颜色之后，我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，七十次是白球的，三十次为黑球事件的概率是 $P(SamplingResult \mid Model)$ 。如果第一次抽象的结果记为 $x_1$ ，第二次抽样的结果记为 $x_2$ ，重复下去。那么样本结果为 $x_1, x_2, \cdots, x_{100}$ 。这样，我们可以得到如下表达式： \[P(SamplingResult

概念介绍（机器学习）

阅读更多关于概念介绍（机器学习）

似然函数：似然函数在形式上就概率密度函数。似然函数用来估计某个参数。最大似然函数：就是求似然函数的最大值。最大似然函数用于估计最好的参数。最小二乘法：它通过最小化误差的平方和寻找数据的最佳函数匹配。就是求 y=a1+a2x的系数。通过最小化误差的平方，然后求系数的偏导数，令导数为0，求解。梯度下降法，基于这样的观察：如果实值函数在点处可微且有定义，那么函数在点沿着梯度相反的方向下降最快。就是求最低点。局部加权回归：它的中心思想是在对参数进行求解的过程中，每个样本对当前参数值的影响是有不一样的权重的，自己上网搜吧。转载于:https://www.cnblogs.com/GuoJiaSheng/p/3866487.html 来源： https://blog.csdn.net/weixin_30819163/article/details/98825774

订阅最大似然法