线性模型

Softmax回归(Softmax Regression)

て烟熏妆下的殇ゞ 提交于 2019-12-27 05:04:06
转自:http://www.cnblogs.com/BYRans/ 多分类问题 在一个多分类问题中,因变量y有k个取值,即 。例如在邮件分类问题中,我们要把邮件分为垃圾邮件、个人邮件、工作邮件3类,目标值y是一个有3个取值的离散值。这是一个多分类问题,二分类模型在这里不太适用。 多分类问题符合 多项分布 。有许多算法可用于解决多分类问题,像决策树、朴素贝叶斯等。这篇文章主要讲解多分类算法中的 Softmax回归(Softmax Regression) 推导思路为:首先证明多项分布属于指数分布族,这样就可以使用广义线性模型来拟合这个多项分布,由广义线性模型推导出的目标函数 即为Softmax回归的分类模型。 证明多项分布属于指数分布族 多分类模型的输出结果为该样本属于k个类别的概率,从这k个概率中我们选择最优的概率对应的类别(通常选概率最大的类别),作为该样本的预测类别。这k个概率用k个变量 , …, 表示。这个k变量和为1,即满足: 可以用前k-1个变量来表示,即: 使用 广义线性模型 拟合这个多分类问题,首先要验证这个多项分布是否符合一个指数分布族。定义T(y)为: 在这里,统计分量T(y)并没有像之前那样定义为T(y)=y,因为T(y)不是一个数值,而是一个k-1维的向量。使用符号 表示向量T(y)的第i个元素。 在这里引入一个新符号: ,如果括号内为true则这个符号取1

从车流模型走进双曲守恒律

家住魔仙堡 提交于 2019-12-25 15:41:58
从车流模型走进双曲守恒律 一. 车流模型 1. 线性问题 1.1 常系数线性问题 1.2 变系数的线性问题 2. 非线性问题 2.1 稀疏波例子 2.2 激波例子 二. 双曲守恒律 一. 车流模型 考虑在单车道的高速公路(笔直,无进出口)上的车流问题。设高速公路为x轴,车辆朝着x轴的正向行驶。 在t时刻,x点处的车流密度为 ρ ( x , t ) \rho(x,t) ρ ( x , t ) 。这里为了简化问题,假设每辆车的长度是相同的,车流密度定义为一个车辆长度内的车辆数,所有的长度都用车辆长度为单位,那么显然 0 ≤ ρ ≤ 1 0\leq \rho \leq 1 0 ≤ ρ ≤ 1 。 ρ = 0 \rho=0 ρ = 0 对应着没有车辆的情况,而 ρ = 1 \rho=1 ρ = 1 则对应着车头挨着车尾的拥堵路况。 t 1 t_1 t 1 ​ 时刻, t 2 t_2 t 2 ​ 时刻区间 [ x 1 , x 2 ] [x_1, x_2] [ x 1 ​ , x 2 ​ ] 内的车辆数分别为 n ( t 1 ) = ∫ x 1 x 2 ρ ( x , t 1 ) d x , n ( t 2 ) = ∫ x 1 x 2 ρ ( x , t 2 ) d x , n(t_1)=\int^{x_2}_{x_1}\rho(x,t_1)dx,n(t_2)=\int^{x_2}_{x_1}

处理分类问题常用算法(二)-----算法岗面试题

笑着哭i 提交于 2019-12-25 12:56:51
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数, 为模型对样本i的预测结果, 为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。 ● 生成模型和判别模型基本形式,有哪些? 参考回答: 生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场 判别式:LR,SVM,神经网络,CRF,Boosting 详情:支持向量机 ● 核函数的种类和应用场景。 参考回答: 线性核、多项式核、高斯核。 特征维数高选择线性核 样本数量可观、特征少选择高斯核(非线性核) 样本数量非常多选择线性核(避免造成庞大的计算量) 详情:支持向量机 ● 分类算法列一下有多少种?应用场景。 参考回答: 单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost。 ●

从线性模型到广义线性模型(1)——模型假设篇

不羁岁月 提交于 2019-12-22 16:08:39
在统计学里,对特定变量之间的关系进行建模、分析最常用的手段之一就是回归分析。回归分析的输出变量通常记做 Y ,也称为因变量(dependent)、响应变量(response)、被解释变量(explained)、被预测变量(predicted)、从属变量(regressand);输入变量通常记做 x 1 ,…, x p ,也称为自变量(independent)、控制变量(control&controlled)、解释变量(explanatory)、预测变量(predictor)、回归量(regressor)。本文根据作者自己的一些学习心得和理解,简单且不严格地介绍在模型假设方面普通线性模型和广义线性模型的区别和联系/推广(generalization)。广义线性模型的拟合检验、推断、诊断等方面的方法和手段依赖于模型所采用的分布类型,难以一概而论,将在作者后续的学习心得文章里具体介绍。 1.普通线性模型的简单回顾 普通线性模型(ordinary linear model)可以用下式表示: Y = β 0 + β 1 x 1 + β 2 x 2 + … + β p − 1 x p − 1 + ϵ (1.1) 这里 β i , i = 1 ,…, p − 1 称为未知参数, β 0 称为截矩项。 普通线性模型的假设主要有以下几点: 1.响应变量 Y 和误差项 ϵ 正态性:响应变量 Y

代数方程与差分方程模型

一笑奈何 提交于 2019-12-22 01:36:19
代数方程与差分方程模型 原创tianguiyuyu 发布于2018-05-29 23:13:18 阅读数 1149 收藏 展开 1 代数方程模型。 所谓的代数方程模型就是有一边变量表示未知量, 代数方程,即由多项式组成的方程。有时也泛指由未知数的代数式所组成的方程,包括整式方程、分式方程和根式方程。 例如:5x+2=7,x=1等。 代数,把algebra翻译成代数,就是用字母代替数的意思,继而推广。随着数学的发展,内在涵义又推广为用群结构或各种结构来代替科学现象中的各种关系。也就是说“代数”本质是个“代”字,通过研究各种抽象结构“代替”直接研究科学现象中的各种关系。 2 差分方程模型 就我个人的观点而言,差分方程模型最重要的作用在于,当我们在解微分方程的时候,有时候微分方程很难直接解,那么这个时候,我们就可以将微分方程的连续化变成离散的。通过找到一个递推式和知道初始条件,那么就可以近似的求解出微分方程的最终解。讲个笑话,高中数学中的等差数列的通项就是差分方程的形式。 在数学上,递推关系(recurrence relation),也就是差分方程(difference equation),是一种递推地定义一个序列的方程式:序列的每一项目是定义为前一项的函数。某些简单定义的递推关系式可能会表现出非常复杂的(混沌的)性质,他们属于数学中的非线性分析领域。 所谓解一个递推关系式

02线性模型

走远了吗. 提交于 2019-12-17 04:30:48
线性模型 在机器学习的术语中,当预测值为连续值时,称为“回归问题”,离散值时为“分类问题”。 最小二乘法: 3.1线性回归 对于连续值的属性,一般都可以被学习器所用,有时会根据具体的情形作相应的预处理, 例如:归一化等; 对于离散值的属性, 若属性值之间存在“序关系”,则可以将其转化为连续值,例如:身高属性分为“高”“中等”“矮”,可转化为数值:{1, 0.5, 0}。 若属性值之间不存在“序关系”,则通常将其转化为向量的形式,例如:性别属性分为“男”“女”,可转化为二维向量:{(1,0),(0,1)}。 当输入属性只有一个的时候,就是最简单的情形,也就是我们高中时最熟悉的“最小二乘法” 当输入属性有多个的时候,例如对于一个样本有d个属性{(x1,x2…xd),y},则y=wx+b需要写成: 对于多元问题,常常使用矩阵的形式来表示数据。在本问题中,将具有m个样本的数据集表示成矩阵X,将系数w与b合并成一个列向量,这样每个样本的预测值以及所有样本的均方误差最小化就可以写成下面的形式: 当一个矩阵的行列式不等于0时,我们才可能对其求逆,则可以求出其解;若为0,则需要使用其它的方法进行计算,书中提到了引入正则化,此处不进行深入。 有时像上面这种原始的线性回归可能并不能满足需求,例如:y值并不是线性变化,而是在指数尺度上变化。这时我们可以采用线性模型来逼近y的衍生物,例如lny

机器学习Day2——线性模型

吃可爱长大的小学妹 提交于 2019-12-15 14:04:04
基本形式 给定由d个属性描述的示例 x=(x1,x2,…,xd),其中xi是x在第i个属性上的取值,线性模型试图学的一个通过属性的线性组合来进行预测的函数,即 一般用向量形式写成 其中 w=(w1,w2,…,wd),w和b学得之后,模型就可以确定了。 模型求解 我们试图学得 这称为”多元线性回归“。 我们需要求解最优解,即f(xi)-yi的值趋向于0,利用最小二乘法 令 再把标记(预期结果)写成向量形式 则有 然而,在显示任务中往往不是满秩矩阵,此时可以解出多个w,他们都能使均方误差最小化,选择哪个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化项。 广义线性模型 考虑单调可微函数g(·),另 其中g(·)称为联系函数,对数线性回归是广义线性模型在g(·)=ln(·)时的特例。 对数几率回归(线性模型在分类任务中的变换) 在广义线性模型中,我们只需要找到一个单调可微函数,即可作为一般的线性模型来求解。 考虑二分类任务,其输出标记y∈{0,1},而线性回归模型产生的预测值是实值,于是,我们需要将z转换为0/1值。最理想的是”单位阶跃函数“ 但是这并不是一个连续的函数,不可微,于是我们可以找一个一定成都上近似单位阶跃函数的”替代函数“。对数几率函数正是这样一个常用的替代函数: 来源: CSDN 作者: haliaddel 链接: https://blog.csdn.net

论文翻译-语音合成:Tacotron 2

北战南征 提交于 2019-12-14 09:10:34
原论文地址:https://arxiv.org/abs/1712.05884 摘要 这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射到梅尔声谱图,后接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),而专业录制语音的MOS得分是4.58。为了验证模型设计,我们对系统的关键组件作了剥离实验研究,并且评估了使用梅尔频谱替代语言学、音长和F0特征作为WaveNet输入带来的影响。我们进一步展示了使用紧凑的声学中间表征可以显著地简化WaveNet架构。 索引词: Tacotron 2, WaveNet, text-to-speech 1. 介绍 从文本生成自然语音(语音合成,TTS)研究了几十年[1]仍然是一项有挑战的任务。这一领域的主导技术随着时代的发展不断更迭。单元挑选和拼接式合成方法,是一项把预先录制的语音波形的小片段缝合在一起的技术[2, 3],过去很多年中一直代表了最高水平。统计参数语音合成方法[4, 5, 6, 7],是直接生成语音特征的平滑轨迹,然后交由声码器来合成语音,这种方法解决了拼接合成方法中出现的边界人工痕迹的很多问题。然而由这些方法构造的系统生成的语音与人类语音相比,经常模糊不清并且不自然。 WaveNet

正则化线性模型和线性回归的改进—岭回归

僤鯓⒐⒋嵵緔 提交于 2019-12-12 03:14:45
九、正则化线性模型 Ridge Regression 岭回归 Lasso 回归 Elastic Net 弹性网络 Early stopping 1.Ridge Regression(岭回归) 岭回归是线性回归的正则化版本,即在原来的线性回归的cost function中添加正则项: 以达到在拟合数据的同时,使模型权重尽可能小的目的,岭回归代价函数: a=0:岭回归退化为线性回归 2.Lasso Regression(Lasso 回归) Lasso 回归是线性回归的另一种正则化版本,正则项为权值向量 ℓ1范数。 Lasso 回归的代价函数: 【注意】: Lasso Regression的代价函数在 θi=0处是不可导的. 解决方法:在 θi=0处用一个次梯度向量代替梯度,如下 Lasso Regression的次梯度向量 Lasso Regression有一个重要的型值是:倾向于完全消除不重要的权重 例如:当a取值相对较大的时,高阶多项式退化为二次甚至是线性:高阶多项式特征的权重被置为0. 也就是说,Lasso Regression能够自动进行特征选择,并输出一个稀疏模型(只有少数特征的权重是非零的)。 3.Elastic Net(弹性网络) 弹性网络在岭回归和Lasso回归中进行了折中,通过 混合比(mix ratio) r 进行控制: r=0:弹性网络变为岭回归 r=1

sklearn机器学习算法--线性模型

喜欢而已 提交于 2019-12-10 17:11:54
线性模型 用于回归的线性模型 线性回归(普通最小二乘法) 岭回归 lasso 用于分类的线性模型 用于多分类的线性模型 1、线性回归 LinearRegression,模型简单,不同调节参数 #2、导入线性回归模型 from sklearn.linear_model import LinearRegression #3、实例化线性回归模型对象 lr = LinearRegression() #4、对训练集进行训练 lr.fit(X_train,y_train) #“斜率”参数(w,也叫作权重或系数)被保存在coef_ 属性中,而偏移或截距(b)被保存在intercept_ 属性中: print('lr.coef_:{}'.format(lr.coef_)) print('lr.intercept_:{}'.format(lr.intercept_)) View Code 2、岭回归 Ridge,调节参数alpha,默认使用L2正则化,alpha越大模型得到的系数就更接近于0,减少alpha可以让系数受到的约束减小。 #导入岭回归模型 from sklearn.linear_model import Ridge #实例化岭回归模型对象并对训练集进行训练 ridge = Ridge().fit(X_train,y_train) #查看模型在训练集和测试集上的精确度 print(