正则化 | 易学教程

线性回归与逻辑回归的正则化

阅读更多关于线性回归与逻辑回归的正则化

线性回归与逻辑回归的正则化一、为什么要正则化？说起正则化要从过拟合问题说起。当我们拥有相当多的特征时，机器学习出来的假设可能在训练集上符合的很好，但是却未能在新的测试集上取得好的效果，这就是我们通常意义上所说的过拟合现象。通常意义上可以采用舍弃一部分特征的方法来避免过拟合，但是相对的会舍弃一些特征信息。当我们需要保留所有特征变量时，我们就会使用正则化的方法。在正则化过程中，我们将保留所有的特征变量，但是我们会减少参数的量级或者参数的大小。另一方面，通过正则化也可以有效地帮助我们简化模型。二、代价函数例如我们有100个特征，事实上我们很难预先知道哪些特征变量有较低的相关性，即缩小哪些参数。因此，以线性回归为例，我们在线性回归的代价函数后加上一个额外的正则化项来缩小每个系数的值，如下所示： \[J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{i=1}^n\theta^2_j] \] λ不宜特别大。三、线性规划的正则化 1.梯度下降法在没有用正则化时，梯度下降法被用来去最小化代价函数，如下所示 \[\theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j(j

ML_6机器学习重要概念补充

阅读更多关于 ML_6机器学习重要概念补充

学习目标 sklearn中的Pipeline 偏差与方差模型正则化之L1正则、L2正则一、sklearn中的Pipeline 研究一个因变量与一个或多个自变量间多项式的回归分析方法，称为多项式回归（Polynomial Regression）。多项式回归是线性回归模型的一种，其回归函数关于回归系数是线性的。其中自变量x和因变量y之间的关系被建模为n次多项式。如果自变量只有一个时，称为一元多项式回归；如果自变量有多个时，称为多元多项式回归。在一元回归分析中，如果变量y与自变量x的关系为非线性的，但是又找不到适当的函数曲线来拟合，则可以采用一元多项式回归。由于任一函数都可以用多项式逼近，因此多项式回归有着广泛应用。多项式回归的思路是：添加一个特征，即对于X中的每个数据进行平方。 import numpy as np import matplotlib.pyplot as plt x = np.random.uniform(-3, 3, size=100) X = x.reshape(-1, 1) y = 0.5 + x**2 + x + 2 + np.random.normal(0, 1, size=100) plt.scatter(x, y) plt.show() from sklearn.linear_model import LinearRegression lin

3. DNN神经网络的正则化

阅读更多关于 3. DNN神经网络的正则化

1. DNN神经网络的前向传播（FeedForward） 2. DNN神经网络的反向更新（BP） 3. DNN神经网络的正则化 1. 前言和普通的机器学习算法一样，DNN也会遇到过拟合的问题，需要考虑泛化，这里我们就对DNN的正则化方法做一个总结。 2. DNN的L1和L2正则化想到正则化，我们首先想到的就是L1正则化和L2正则化。L1正则化和L2正则化原理类似，这里重点讲述DNN的L2正则化。而DNN的L2正则化通常的做法是只针对与线性系数矩阵 $W$ ,而不针对偏倚系数 $b$ 。利用我们之前的机器学习的知识，我们很容易可以写出DNN的L2正则化的损失函数。假如我们的每个样本的损失函数是均方差损失函数,则所有的m个样本的损失函数为： \[J(W,b) = \frac{1}{2m}\sum\limits_{i=1}^{m}||a^L-y||_2^2 \] 则加上了L2正则化后的损失函数是 \[J(W,b) = \frac{1}{2m}\sum\limits_{i=1}^{m}||a^L-y||_2^2 + \frac{\lambda}{2m}\sum\limits_{l=2}^L||w||_2^2 \] 其中,$\lambda $1即我们的正则化超参数，实际使用时需要调参。而$ w $为所有权重矩阵$ W$的所有列向量。如果使用上式的损失函数

深度学习正则化---提前终止

阅读更多关于深度学习正则化---提前终止

提前终止在对模型进行训练时，我们可以将我们的数据集分为三个部分，训练集、验证集、测试集。我们在训练的过程中，可以每隔一定量的step，使用验证集对训练的模型进行预测，一般来说，模型在训练集和验证集的损失变化如下图所示：可以看出，模型在验证集上的误差在一开始是随着训练集的误差的下降而下降的。当超过一定训练步数后，模型在训练集上的误差虽然还在下降，但是在验证集上的误差却不在下降了。此时我们的模型就过拟合了。因此我们可以观察我们训练模型在验证集上的误差，一旦当验证集的误差不再下降时，我们就可以提前终止我们训练的模型。来源： https://www.cnblogs.com/chzhang1994/p/8695506.html

4.机器学习之逻辑回归算法

阅读更多关于 4.机器学习之逻辑回归算法

理论上讲线性回归模型既可以用于回归，也可以用于分类。解决回归问题，可以用于连续目标值的预测。但是针对分类问题，该方法则有点不适应，因为线性回归的输出值是不确定范围的，无法很好的一一对应到我们的若干分类中。即便是一个二分类，线性回归+阈值的方式，已经很难完成一个鲁棒性很好的分类器了。为了更好的实现分类，逻辑回归诞生了。逻辑回归（Logistic Regression）主要解决二分类问题，用来表示某件事情发生的可能性。逻辑回归是假设数据服从Bernoulli分布的，因此LR也属于参数模型，他的目的也是寻找到最优参数。 logistic回归是一种广义线性回归（generalized linear model）。【补充】在统计学中，参数模型通常假设总体（随机变量）服从某一个分布，该分布由一些参数确定（比如正太分布由均值和方差确定），在此基础上构建的模型称为参数模型；非参数模型对于总体的分布不做任何假设，只是知道总体是一个随机变量，其分布是存在的（分布中也可能存在参数），但是无法知道其分布的形式，更不知道分布的相关参数，只有在给定一些样本的条件下，能够依据非参数统计的方法进行推断。首先回顾一下简单线性回归（只考虑一个输入变量，一个输出变量的线性回归）。表示输入变量（自变量），第一部分例子中的X。表示输出变量（因变量），第一部分例子中的Y。一对表示一组训练样本。m个训练样本

人工智能知识点-学习笔记

阅读更多关于人工智能知识点-学习笔记

断断续续学习了人工智能的标准教材《人工智能一种现代的方法》，经典教材内容全面详细，篇幅也很大，需要一定的基础知识。而且老外的行文方式，和我们不一样，看着比较费力，所以在读机器学习这一章节时，先看了 breakloop 的微博 https://blog.csdn.net/daihuimaozideren/article/details/82977972 ，了解一些基础知识，再去学习。 1.线性回归知识点：线性关系，线性回归，假设函数，代价函数，学习速率，梯度下降，特征向量连续的用回归，离散的分类。假设函数是目标，代价函数是用来评估误差的，使用梯度下降算法，学习速率是一个参数，多元的方法类似，使用最小二乘法计算。 2.逻辑回归知识点：决策边界，凸函数，非凸函数逻辑回归是用来解决分类问题的，借用了线性回归的方法，使用引入sigmoid函数来处理假设函数，，凸函数就是有极大值的函数，任意二点的连线都在内部，二次导数大于0。使用对数函数作为代价函数。枚举问题（有多个y值）使用多个代价函数（具体如何计算暂不清楚）。 3.梯度下降vs正规方程法知识点：特征缩放，均值归一化，正规方程影响梯度下降算法收敛速度的因素包括：样本集合大小，特种向量中某一元素的取值范围远大于其它元素，学习速率等，对于取值范围大的参数使用特殊缩放，在保证收敛的前提下尽量提升学习率

机器学习记录（week 3）

阅读更多关于机器学习记录（week 3）

突然有种想把自己的学习经历记录下来的冲动，所以有了这篇文章，以后应该也会把学习笔记，遇到的问题，解决方法都记录在博客上面（之前的笔记都记在有道云笔记上了，有空再整理一下，以下是有关正则化那部分的测验） Regularization 第一题答案：B A：过多的特征会导致过拟合 B：加入新特征，会更好的拟合数据（不用考虑是否过拟合，这里是问是否加入新特征对拟合数据有无帮助，加入新特征意味着得到更多的信息） C、D：我在cd之间纠结了好久，想不到两个都是错的，然后翻了下他人的解释，意识到这道题也考了λ的大小问题，使用正则化的时候，若是λ过大，则一系列的Θ就是趋于0（个人理解，正则化就是修改代价函数，在要改变的参数前设置一个值，如同下图的代价函数，给Θ3，Θ4设置惩罚，因为要使得代价函数尽量小，当把后两项考虑进去时，因为1000比较大，所以要使得Θ3，Θ4较小才能使得代价函数较小，所以λ较大时，会使得Θ很小），所以说正则化不一定能得到更好的假设，也有可能发生欠拟合问题，至于D，都欠拟合了，也不会在新样例有更好的表现）（注意：D的 not in the training set是修饰examples的，我一开始没注意看犯错了）第二题答案：B 很容易选出来了，λ大的，Θ会小第三题答案：D A：正则化并不对导致代价函数变为凸函数，正则化是解决过拟合的问题 B：不是很理解

机器学习160道面试题

阅读更多关于机器学习160道面试题

数据科学职位的典型面试过程会有很多轮，其中通常会涉及理论概念，目的是确定应聘者是否了解机器学习的基础知识。在这篇文章中，我想总结一下我所有的面试经历（面试or被面试）并提出了160多个数据科学理论问题的清单。其中包括以下主题：线性回归模型验证分类和逻辑回归正则化决策树随机森林 GBDT 神经网络文本分类聚类排序：搜索和推荐时间序列这篇文章中的问题数量似乎远远不够，请记住，面试流程是根据公司的需求和你的工作经历而定的。因此，如果你的工作中没有用过时间序列模型或计算机视觉模型，就不会收到类似的问题。提示：如果不知道某些面试问题的答案，不要灰心。为了简化起见，我根据难度将问题分为三类： 👶容易 ⭐️中号 🚀专家开始吧！有监督的机器学习什么是有监督学习？👶 线性回归什么是回归？哪些模型可用于解决回归问题？👶 什么是线性回归？什么时候使用它？👶 什么是正态分布？为什么要重视它？👶 如何检查变量是否遵循正态分布？‍⭐️ 如何建立价格预测模型？价格是否正态分布？需要对价格进行预处理吗？‍⭐️ 解决线性回归的模型有哪些？‍⭐️ 什么是梯度下降？它是如何工作的？‍⭐️ 什么是正规方程？‍⭐️ 什么是SGD-随机梯度下降？与通常的梯度下降有何不同？‍⭐️ 有哪些评估回归模型的指标？👶 什么是MSE和RMSE？👶 验证方式什么是过拟合？👶 如何验证模型？👶

160个机器学习面试题

阅读更多关于 160个机器学习面试题

原文： https://hackernoon.com/160-data-science-interview-questions-415s3y2a Alexey Grigorev(Lead Data Scientist at OLX Group) 数据科学职位的典型面试过程会有很多轮，其中通常会涉及理论概念，目的是确定应聘者是否了解机器学习的基础知识。在这篇文章中，我想总结一下我所有的面试经历（面试or被面试）并提出了160多个数据科学理论问题的清单。其中包括以下主题：线性回归模型验证分类和逻辑回归正则化决策树随机森林 GBDT 神经网络文本分类聚类排序：搜索和推荐时间序列这篇文章中的问题数量似乎远远不够，请记住，面试流程是根据公司的需求和你的工作经历而定的。因此，如果你的工作中没有用过时间序列模型或计算机视觉模型，就不会收到类似的问题。提示：如果不知道某些面试问题的答案，不要灰心。为了简化起见，我根据难度将问题分为三类： 👶容易 ⭐️中号 🚀专家开始吧！有监督的机器学习什么是有监督学习？👶 线性回归什么是回归？哪些模型可用于解决回归问题？👶 什么是线性回归？什么时候使用它？👶 什么是正态分布？为什么要重视它？👶 如何检查变量是否遵循正态分布？‍⭐️ 如何建立价格预测模型？价格是否正态分布？需要对价格进行预处理吗？‍⭐️ 解决线性回归的模型有哪些？

Dropout（正则化）

阅读更多关于 Dropout（正则化）

Dropout简介 1.在机器学习模型中，模型的参数太多，训练样本又太少，训练出来的模型很容易产生过拟合的现象。过拟合的具体表现：模型在训练数据上损失函数较小，预测准确率较高；但是在测试数据上损失函数比较大，预测准确率较低。 2.Dropout：在向前传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型的泛化性更强，因为它不会太依赖某些局部的特征。 .Dropout工作流程及使用假设我们要训练这样一个神经网络，如图2所示：正常的流程是：输入是x，输出是y，我们首先把x通过网络前向传播，然后把误差反向传播以决定如何更新参数让网络进行学习。使用Dropout之后，过程变成如下： (1) 首先随机（临时）删掉网络中一半的隐藏神经元，输入输出神经元保持不变（图3中虚线为部分临时被删除的神经元） (2) 然后把输入x通过修改后的网络前向传播，然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后，在没有被删除的神经元上按照随机梯度下降法更新对应的参数（w，b）。 (3) 然后继续重复这一过程（1和2）：恢复被删掉的神经元（此时被删除的神经元保持原样，而没有被删除的神经元已经有所更新）。 Dropout在神经网络中的使用没有Dropout的网络计算公式：采用Dropout的网络计算公式：为什么说Dropout可以解决过拟合？（1）

订阅正则化