测试模型

训练测试样本划分

匿名 (未验证) 提交于 2019-12-02 23:41:02
在离线建模环节,需要对模型进行评估,这就需要对总样本进行划分,一部分用于训练,模型从训练集学习规则,一部分用于测试,检验模型的泛化能力。 下面介绍几种样本划分方法。 留出法 这种方法非常简单,但 不能充分利用数据训练模型,而且样本划分对模型效果影响很大。 a. 只利用了部分数据训练模型,得到的模型很可能和全量数据D得到的模型偏差很大,训练集越小,偏差越大 b. 如果训练集较大,测试集较小,则模型可信度降低 c. 划分前后数据分布不同,比如总样本1500正1500负,划分后,测试样本50正950负,这显然会影响模型的效果。 样本集划分数量会导致模型偏差,通常做法是 2/3做训练集,1/3做测试集; 类别分布不同也会影响模型效果,可采用分层抽样的方法,特别是类别不均衡问题; 鉴于留出法的不确定性,可进行多次留出法实验,最终取平均值 适用场景:样本具有明显的时间序列因素 如 6月需要训练模型,可拿1-4月作为训练集,5月作为测试集     交叉验证 这是最常用的方法,老生常谈了,直接贴图片吧 交叉验证明显比留出法更复杂, 当k=2时,其仍不同于留出法,因为留出法是1个训练集,而交叉验证是2个训练集; 当k=n,n为样本数,此时测试集为一个样本,这称为 留一法,(Leave-One-Out,LOO) ,   // 这种方法训练n个模型,每个模型基本用到全部数据,接近“真实”模型;   //

学习曲线

陌路散爱 提交于 2019-12-02 22:56:44
来源:https://www.cnblogs.com/volcao/p/9291551.html 一、基础理解 学习曲线作用 : 查看模型的学习效果; 通过学习曲线可以清晰的看出模型对数据的过拟合和欠拟合; 学习曲线 :随着训练样本的逐渐增多,算法训练出的模型的表现能力; 表现能力 :也就是模型的预测准确率,使用均方误差表示;学习率上体现了模型相对于训练集和测试集两类数据的均方误差。 具体的操作: len(X_train) 个训练样本,训练出 len(X_train) 个模型,第一次使用一个样本训练出第一个模型,第二次使用两个样本训练出第二个模型,... ,第 len(X_train) 次使用 len(X_train) 个样本训练出最后一个模型; 每个模型对于训练这个模型所使用的部分训练数据集的预测值:y_train_predict = 模型.predict(X_train[ : i ]); 每个模型对于训练这个模型所使用的部分训练数据集的均方误差:mean_squared_error(y_train[ : i ], y_train_predict); 每个模型对于整个测试数据集的预测值:y_test_predict = 模型.predict(X_test) 每个模型对于整个测试数据集的预测的均方误差:mean_squared_error(y_test, y_test

测试基础知识

北城以北 提交于 2019-12-02 18:58:46
软件测试模型:V模型、W模型、H模型 V模型:强调了在整个软件项目开发中需要经历的若干个测试级别,并与每一个开发级别对应;忽略了测试的对象不应该仅仅包括程序,没有明确指出对需求、设计的测试; W模型: 补充了V模型中忽略的内容,强调了测试计划等工作的先行和对系统需求和系统设计的测试;与V模型相同,没有对软件测试的流程进行说明; H模型: 强调测试是独立的,只要测试准备完成,就可以执行测试。 来源: https://www.cnblogs.com/aiyumo/p/11758843.html

【笔记】元学习专题视频(台大·李宏毅)学习记录

你离开我真会死。 提交于 2019-12-02 06:29:52
目录 一、概述 Meta Learning = Learn to learn 让机器去学习如何进行学习:使用一系列的任务来训练模型,模型根据在这些任务上汲取的经验,成为了一个强大的学习者,能够更快的学习新任务。 Meta Learning VS Lifelong Learning 终身学习:着眼于用同一个模型去学习不同的任务。 元学习:不同任务使用不同的模型,元学习者积累经验后,在新任务上训练的更快更好。 Meta Learning VS Machine Learning 机器学习:核心是通过 人为设计的学习算法 (Learning Algorithm),利用训练数据训练得到一个函数 f ,这个函数可以用于新数据的预测分类。 ![](https://v-picgo-1252406892.cos.ap-chengdu.myqcloud.com/Notes/Scholar/机器学习图解.png) 元学习:让机器自己学习找出最优的学习算法。根据提供的训练数据找到一个可以找到函数 f 的函数 F 的能力。 二、元学习的实现框架 定义一系列的学习算法 不同的网络结构、参数初始化策略、参数更新策略决定了不同学习算法。 定义学习算法函数 F 的评价标准 综合考虑学习算法 F 针对不同任务产生的函数 f 在进行测试时得到的损失。 选取最好的学习算法 F *=argminL(F)

人脸检测之Ultra-Light-Fast-Generic-Face-Detector-1MB

落爺英雄遲暮 提交于 2019-12-02 06:23:55
Github: https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB 优点: 基于ssd修改。速度超级快,MNN上测试,MTCNN得20ms,该模型只要4ms。精度上不如MTCNN。 支持NCNN,MNN。包含2个版本的模型,slim版本(速度快)和RFB版本(精度高)。 缺点: 不支持人脸关键点检测 Widerface 测试: 在WIDER FACE val集测试精度(单尺度输入分辨率:320*240 或按最大边长320等比缩放) 模型 Easy Set Medium Set Hard Set libfacedetection v1(caffe) 0.65 0.5 0.233 libfacedetection v2(caffe) 0.714 0.585 0.306 Retinaface-Mobilenet-0.25 (Mxnet) 0.745 0.553 0.232 version-slim 0.765 0.662 0.385 version-RFB 0.784 0.688 0.418 在WIDER FACE val集测试精度(单尺度输入分辨率:VGA 640*480 或按最大边长640等比缩放 ) 模型 Easy Set Medium Set Hard Set libfacedetection

10、应用机器学习的建议(Advice for Applying Machine Learning)

故事扮演 提交于 2019-12-02 03:34:17
10.1 决定下一步做什么   到目前为止,我们已经介绍了许多不同的学习算法,如果你一直跟着这些视频的进度学习,你会发现自己已经不知不觉地成为一个了解许多先进机器学习技术的专家了。   然而,在懂机器学习的人当中依然存在着很大的差距,一部分人确实掌握了怎样高效有力地运用这些学习算法。而另一些人他们可能对我马上要讲的东西,就不是那么熟悉了。他们可能没有完全理解怎样运用这些算法。因此总是把时间浪费在毫无意义的尝试上。我想做的是确保你在设计机器学习的系统时,你能够明白怎样选择一条最合适、最正确的道路。因此,在这节视频和之后的几段视频中,我将向你介绍一些实用的建议和指导,帮助你明白怎样进行选择。具体来讲,我将重点关注的问题是假如你在开发一个机器学习系统,或者想试着改进一个机器学习系统的性能,你应如何决定接下来应该选择哪条道路?   为了解释这一问题,我想仍然使用预测房价的学习例子,假如你已经完成了正则化线性回归,也就是最小化代价函数𝐽的值,假如,在你得到你的学习参数以后,如果你要将你的假设函数放到一组新的房屋样本上进行测试,假如说你发现在预测房价时产生了巨大的误差,现在你的问题是要想改进这个算法,接下来应该怎么办?   实际上你可以想出很多种方法来改进这个算法的性能,其中一种办法是使用更多的训练样本。具体来讲,也许你能想到通过电话调查或上门调查来获取更多的不同的房屋出售数据。遗憾的是

性能测试模型

╄→гoц情女王★ 提交于 2019-12-01 12:32:25
1.性能评估模型概述 我们的系统性能到底能不能够支撑线上真实大量的订单交易? 我想,这是我们每一个互联网交易或者负责大并发项目的同学都很关心的问题,也是性能评估模型篇需要解答的最终问题。所以我们就带着这个问题来一步步深入性能测试。本问题的难度不在于一个简单的结果,而在于答案背后的一系列性能测试的评估数据和算法,以及如何建立一个良好可持续的“性能评估模型”。 通常来讲,性能测试是指通过自动化的测试工具模拟多种正常、峰值以及异常负载条件来对系统的各项性能指标进行测试。 而要回答“能否支撑线上真实 大量的订单交易 ”这样带有预测性的问题,实际上还需要用上另一种手段,即“ 性能预测 ”,而“在线性能评估模型”就是用来做性能预测的。 在预测之前,我们先来做一个数据分析,通过这个分析我们可以大概了解线上与线下的推算过程。 2013年11月11日,支付宝实现了当天交易总金额 350 亿元 ,订单总数 1.8 亿笔 (其中手机支付占24%),活跃用户 1.2 亿 。(来源:支付宝官方微博 http://weibo.com/1627897870/AiiAjEwHO ) 显然这是一个非常震惊的数字,它见证着电商的今天也预示着电商的未来。针对这个数字,下面我们就一起来剖析数字背后的性能情况。 双11当天,支付宝的订单数是1.8亿笔,意味着每小时订单数达到1.8亿 / 24 = 750万笔

在进行机器学习建模时,为什么需要验证集(validation set)?

偶尔善良 提交于 2019-12-01 12:03:40
在进行机器学习建模时,为什么需要评估集(validation set)?   笔者最近有一篇文章被拒了,其中有一位审稿人提到论文中的一个问题:”应该在验证集上面调整参数,而不是在测试集“。笔者有些不明白为什么除了训练集、测试集之外,还需要额外划分一个验证集。经过查找资料,在《Deep Learning with Python》这本书上面我发现了比较好的解释,于是将这部分内容摘录在本博文中,并且翻译为中文。   下文摘自《Deep Learning with Python》4.2小节,翻译如下:   不在同样的数据上面验证模型的原因显然在于:在几轮训练之后,模型就会过拟合。即,相较于模型在训练数据上一直在变好的表现,模型在新样本上的表现会在某一时刻开始变差。   机器学习的目的是构造有很强泛化能力—在新样本上有着良好的表现—的模型,而过拟合是我们需要重点解决的问题。这一小节,我们将会聚焦于如何去衡量模型的泛化能力:如何去评估模型。    训练集、验证集和测试集    评估模型的重点在于将可用数据还分为三个部分:训练集(training set)、验证集(validation set)和测试集(test set)。在训练集上面训练模型,并且在验证集上面评估模型。一旦模型被准备好,最后就在测试集上面测试模型。   为什么不直接使用两个数据集:一个训练集和一个测试集

(转)关系抽取之远程监督算法

天涯浪子 提交于 2019-12-01 10:08:12
一、 关系抽取综述 二、 远程监督关系抽取算法的滥觞 三、 多实例学习和分段最大池化 四、 句子级别的注意力机制 一、关系抽取综述   信息抽取是自然语言处理中非常重要的一块内容,包括实体抽取(命名实体识别,Named Entity Recognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。   这次介绍的关系抽取属于自然语言理解(NLU)的范畴,也是构建和扩展知识图谱的一种方法。   关系抽取理解起来也比较简单,比如下面图片中的第一句话:   He was in Tennessee.   首先做命名实体识别,识别出He(PER)和Tennessee(GPE)两个实体,然后找出两个实体之间的关系为:Physical-Located,最后可以把抽取出来的关系表示为三元组的形式:(He PER , Physical-Located, Tennessee GPE ),或者Physical-Located(He PER , Tennessee GPE )。   可见关系抽取包含命名实体识别在内,在技术实现上更复杂。   关系抽取从流程上,可以分为流水线式抽取(Pipline)和联合抽取(Joint Extraction)两种,流水线式抽取就是把关系抽取的任务分为两个步骤:首先做实体识别,再抽取出两个实体的关系

软件开发过程模型与软件测试模型

允我心安 提交于 2019-12-01 08:02:01
一、软件开发过程模型: 需求分析、详细设计、编码、测试、运行维护 瀑布模型:需求分析、系统设计、软件编程、软件测试、软件维护 快速原型模型:快速分析、构造、运行、评价 增量模型:规格说明、设计、实现与集成、交付客户 螺旋模型:制定计划、风险分析、实施工程、客户评估 ************************************************************************************************************************************** 二、测试模型: 需求分析、详细设计、编码、测试、运行维护 V模型:需求分析、概要设计、详细设计、编码、单元测试、集成测试、系统测试、验收测试 W(双V)模型: 需求分析    、概要设计   、详细设计  、编码  、集成  、实施  、交付   验收/系统测试设计、集成测试设计、单元测试设计、单元测试、集成测试、系统测试、验收测试 H模型:测试准备-----就绪点-------测试执行    01、单元测试: 是模块测试,验证软件的基本组成单位的正确性,是白盒测试    02、集成测试: 是模块间的测试,测试接口(软件各模块之间的接口和软件与硬件之间的接口)是否正确,是灰盒测试(白盒和黑盒结合)    03、系统测试: 系统测试包括:冒烟测试 系统测试