预测模型

CDA 数据分析师 level1 part 5

断了今生、忘了曾经 提交于 2019-12-06 16:30:35
数据分析师-机器学习 数据分析师-机器学习 机器学习概念 机器学习概念 ●机器学习研究如何让计算机不需要明确的程序也能具备学习能力。( Arthur Samuel,1959) ●一个计算机程序在完成了任务T之后,获得经验E,其表现效果为P,如果任务T的性能表现,也就是用以衡量的P,随着E的增加而增加,可以称其为学习。(Tom Mitchell11977) 虽然机器学习的研究来源于人工智能领域,但是机器学习的方法却应用于数据科学领域,因此我们将机器学习看作是一种数学建模更合适。 机器学习的本质就是借助数学模型理解数据。当我们给模型装上可以适应观测数据的可调参数时,“学习”就开始了;此时的程序被认为具有从数据中“学习”的能力。一旦模型可以拟合旧的观测数据,那么它们就可以预测并解释新的观测数据。 模型构建流程 第一步:获取数据 既然我们机器学习是借助数学模型理解数学,那么最重要的原材料就是数据了。获取数据通常指的是获取原始数据,当然这里可以是一手数据,也可以是二手数据,关键看机器学习的学习任务。 “数据决定机器学习结果的上限,而算法只是尽可能的逼近这个上限”,可见数据在机器学习中的作用。那么一般而言对于数据我们有哪些要求呢? 数据要具有代表性,数据需要包含尽可能多的信息,数据也需要同学习任务有关联性。 对于监督学习中的分类问题,数据偏斜不能过于严重

02 序列模型问题

自古美人都是妖i 提交于 2019-12-06 16:23:34
序列模型问题 给定一个序列, 预测下一个出现的item. 如字迹预测, 语句单词预测, 行为预测等等. LSTM 网络 Long Short Term 网络,一般就叫做 LSTM ,是一种 RNN 特殊的类型,可以学习长期依赖信息。LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为,而非需要付出很大代价才能获得的能力! LSTM前向传播算法 来源: https://www.cnblogs.com/lee3258/p/11993972.html

02 序列模型问题

非 Y 不嫁゛ 提交于 2019-12-06 16:23:26
序列模型问题 给定一个序列, 预测下一个出现的item. 如字迹预测, 语句单词预测, 行为预测等等. LSTM 网络 Long Short Term 网络,一般就叫做 LSTM ,是一种 RNN 特殊的类型,可以学习长期依赖信息。LSTM 通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为,而非需要付出很大代价才能获得的能力! LSTM前向传播算法 来源: https://www.cnblogs.com/lee3258/p/11993983.html

09 线性回归及矩阵运算

南楼画角 提交于 2019-12-06 16:03:43
线性回归 定义:通过一个或者多个自变量与因变量之间进行建模的回归分析。其中可以为一个或者多个自变量之间的线性组合。 一元线性回归:涉及到的变量只有一个 多元线性回归:变量两个或以上 通用公式:h(w) = w0 + w1x1 + w2x2 + ....= wTx 其中w,x 为矩阵:wT=(w0, w1, w2) x=(1,x1, x2)T 回归的应用场景 (连续型数据) 房价预测 销售额预测 (广告,研发成本,规模等因素) 贷款额度 线性关系模型 定义: 通过属性 (特征) 的线性组合来进行预测的函数: f(x) = w1x1 + w2x2 + w3x3 + ...... + wdxd + b w : weight (权重) b: bias (偏置项) 多个特征: (w1:房子的面积, w2:房子的位置 ..) 损失函数(误差) 《统计学习方法》 - 算法 ,策略, 优化 线性回归, 最小二乘法,正规方程 & 梯度下降 损失函数(误差大小) yi 为第i个训练样本的真实值 hw(xi)为第i个训练样本特征值组合预测函数 (预测值) 寻找最优化的w 最小二乘法之 正规方程 (直接求解到最小值,特征复杂时可能没办法求解) 求解:w= (xTx)-1 xTy X 为特征值矩阵,y为目标值矩阵 缺点: 特征过于复杂时,求解速度慢 最小二乘法之 梯度下降 使用场景

卡尔曼滤波

泪湿孤枕 提交于 2019-12-06 14:41:04
卡尔曼滤波的基本思想是,给定一个假设的合理期望值后,结合系统历史的测量情况下,为系统建立当前的测量模型,是一个概率最大化预测。结合历史测量数据并不是保留了漫长的历史数据后给出的结果,而是在系统迭代更新只保留最近的估计模型供下一次迭代使用,但是最近的估计模型都是跟前面的数据有一定的关系,是前面数据的不断迭代实现的预测结果。单就看当时的结果的话,只与上一次模型的预测结果有关,这样的思想简化了计算机的计算能力。卡尔曼滤波的核心是信息融合,包括系统受到的干扰及测量传感器的噪声。根据这些信号预测当前的状态模型,说白了就是一个估计其,下面是它的原理: 对于离散线性时不变系统: 来源: https://www.cnblogs.com/fuzhuoxin/p/11983165.html

阿里巴巴笔试题-马尔科夫(HMM)的特征

…衆ロ難τιáo~ 提交于 2019-12-06 14:26:51
Hidden Markov model (HMM) 一、马尔科夫转移矩阵法的涵义 单个生产厂家的产品在同类商品总额中所占的比率,称为该厂产品的市场占有率。在激烈的竞争中,市场占有率随产品的质量、消费者的偏好以及企业的促销作用等因素而发生变化。企业在对产品种类与经营方向做出决策时,需要预测各种商品之间不断转移的市场占有率。 市场占有率的预测可采用马尔科夫转移矩阵法,也就是运用转移概率矩阵对市场占有率进行市场趋势分析的方法。马尔科夫是俄国数学家,他在20世纪初发现:一个系统的某些因素在转移中,第n次结果只受第n-1的结果影响,只与当前所处状态有关,与其他无关。比如:研究一个商店的累计销售额,如果现在时刻的累计销售额已知,则未来某一时刻的累计销售额与现在时刻以前的任一时刻的累计:销售额都无关。在马尔科夫分析中,引入状态转移这个概念。所谓状态是指客观事物可能出现或存在的状态;状态转移是指客观事物由一种状态转穆到另一种状态的概率。 马尔科夫分析法的一般步骤为: ①调查目前的市场占有率情况; ②调查消费者购买产品时的变动情况; ③建立数学模型; ④预测未来市场的占有率。 二、马尔科夫分析模型 实际分析中,往往需要知道经过一段时间后,市场趋势分析对象可能处于的状态,这就要求建立一个能反映变化规律的数学模型。马尔科夫市场趋势分析模型是利用概率建立一种随机型的时序模型,并用于进行市场趋势分析的方法。

预训练语言模型整理

我怕爱的太早我们不能终老 提交于 2019-12-06 08:11:15
简介 # 2018年ELMo/GPT/BERT的相继提出,不断刷新了各大NLP任务排行榜,自此,NLP终于找到了一种方法,可以像计算机视觉那样进行迁移学习,被誉为NLP新时代的开端。 与计算机视觉领域预训练模型不同的是,其通过采用自监督学习的方法,将大量的无监督文本送入到模型中进行学习,即可得到通用的预训练模型,而NLP领域中无监督文本数据要多少有多少,2019年发布的后续研究工作(GPT2、Roberta、T5等)表明,采用更大的数据、更强大的炼丹炉可以不断提高模型性能表现,至少目前看来还没有达到上限。同时,如何缩减模型参数也成为了另一个研究热点,并有相应的论文在今年发表(ALBERT、ELECTRA)。这一类工作为NLP研发者趟通并指明了一条光明大道:就是通过自监督学习,把大量非监督的文本充分利用起来,并将其中的语言知识编码,对各种下游NLP任务产生巨大的积极作用。 为何预训练语言模型能够达到如此好的效果?主要有如下几点: word2vec等词向量模型训练出来的都是静态的词向量,即同一个词,在任何的上下文当中,其向量表征是相同的,显然,这样的一种词向量是无法体现一个词在不同语境中的不同含义的。 我们采用预训练模型来代替词向量的关键在于,其能够更具上下文的不同,对上下文中的词提取符合其语境的词表征,该词表征向量为一个动态向量,即不同上下文输入预训练模型后

优化算法 | 灰色预测模型算法GM(1,1)流程分析

六月ゝ 毕业季﹏ 提交于 2019-12-06 01:50:46
灰色预测模型 (Gray Forecast Model) 是通过少量的、不完全的信息,建立数学模型并做出预测的一种预测方法 灰色预测模型适用于小样本,含有不确定性因素的系统 首先,假如给定一组数据 X1={x11,x12,x13…x1n},你需要预测x1(n+1)的值是多少 这里可以使用灰度预测模型也就是GM(1,1)来进行预测 首先生成累加序列X2, x21=x11, x22=x11+x12 …. x2(n)=x11+x12+x13+…x1(n) 于是得到了一个新的序列X2 这里还需要用到一个一次后减的公式,也就是∆x1i=x1(i)-x1(i-1) 现在我们假设累加序列X2符合一阶常微分方程(这里的一阶指的是只有一阶导数,常微分指的是系数为常数) (dx2i)/(di) + a*x2i = u 公式(1.1) 其中的a和u分别称为发展灰数和内生控制灰数 当i=t0,的时候x2(i) = x2(t0) 因此可以得到一个公式 (dx2(t0))/(d(t0)) + a*x2(t0) = u 公式(1.2) 综合1.1和1.2可以得到公式 x2(i) = [x2(t0) – (u/a)]*e^(-a*(i-t0)) +u/a // 我也不知道是怎么推导出来的 对导数部分(dx2(t0))/(d(t0))进行对等间隔取样,并且将t0设置为1,公式会变成 x2(k+1) = [x2(1)

Few-shot Object Detection via Feature Reweighting (ICCV2019)

耗尽温柔 提交于 2019-12-06 00:31:07
论文: https://arxiv.org/abs/1812.01866 代码: https://github.com/bingykang/Fewshot_Detection 1.研究背景 深度卷积神经网络最近在目标检测方面的成功很大程度上依赖于大量带有准确边界框标注的训练数据。当标记数据不足时,CNNs会严重过度拟合而不能泛化。计算机视觉系统需要从少量样本中进行检测的学习能力,因为一些对象类别天生就样本稀缺,或者很难获得它们的注释。 这种只有少量样本的检测称为few-shot目标检测问题。获得一个few-shot的检测模型对许多应用都是有用的。然而,目前任然缺乏有效的方法。最近,元学习为类似的问题提供了很多可行的解决方案。但是目前的一些模型都是用于few-shot分类,而目标检测在本质上要困难得多,因为它不仅涉及到类的预测,还涉及到目标的定位,因此现成的few-shot分类方法不能直接应用于few-shot检测问题。以匹配网络和原型网络为例,由于图像中可能存在无关类的分散注意力的对象或根本没有目标对象,如何构建匹配和定位的对象原型还不清楚。 2.本文解决方案 本文提出了一种新的检测模型,该模型通过充分利用一些基类的检测训练数据,并根据几个support examples快速调整检测预测网络来预测新的类,从而提供few-shot的学习能力。提出的模型首先从基类中学习元特征

预训练语言模型整理(ELMo/GPT/BERT...)

陌路散爱 提交于 2019-12-05 22:28:55
目录 简介 预训练任务简介 自回归语言模型 自编码语言模型 预训练模型的简介与对比 ELMo 细节 ELMo的下游使用 GPT/GPT2 GPT 细节 微调 GPT2 优缺点 BERT BERT的预训练 输入表征 Fine-tunninng 缺点 ELMo/GPT/BERT对比,其优缺点 BERT-wwm RoBERTa ERNIE(艾尼) 1.0 ERNIE 2.0 XLNet 提出背景 排列语言模型(Permutation Language Model,PLM) Two-Stream Self-Attention Transformer-XL ALBERT 简介 2018年ELMo/GPT/BERT的相继提出,不断刷新了各大NLP任务排行榜,自此,NLP终于找到了一种方法,可以像计算机视觉那样进行迁移学习,被誉为NLP新时代的开端。 与计算机视觉领域预训练模型不同的是,其通过采用自监督学习的方法,将大量的无监督文本送入到模型中进行学习,即可得到通用的预训练模型,而NLP领域中无监督文本数据要多少有多少,2019年发布的后续研究工作(GPT2、Roberta、T5等)表明,采用更大的数据、更强大的炼丹炉可以不断提高模型性能表现,至少目前看来还没有达到上限。同时,如何缩减模型参数也成为了另一个研究热点,并有相应的论文在今年发表(ALBERT、ELECTRA)