预测模型

Kaggle教程 机器学习中级6 XGBoost

房东的猫 提交于 2020-01-13 08:07:55
在本课程中,你将学习如何使用 梯度增强 方法来构建和优化模型。这个方法在Kaggle竞赛中占据优势地位,并且在不同的数据集中取到得很好的结果。 1、介绍 在本课程的大部分时间里,你已经使用随机森林方法进行了预测,该方法比单个决策树有更好的性能。 我们把随机森林方法称为“集成方法”。根据定义, 集成方法 结合了几个模型(例如,在随机森林的案例中有好几个树)的预测。 接下来,我们将学习另一种集成方法,称为 梯度增强 。 2、梯度增强 梯度增强是一种通过循环迭代将模型添加到集合中的方法。 它首先用一个模型初始化集合,这个模型的预测可能非常简单。(即使它的预测非常不准确,后续添加的集合将解决这些错误。) 然后,我们开始循环迭代: 首先,我们使用当前集成来为数据集中的每个观测结果生成预测。为了进行预测,我们将所有模型的预测添加到集成中。 这些预测被用来计算损失函数(例如, 平均平方误差 )。 然后,我们使用损失函数来适应一个新的模型,这个模型将被添加到集成中。具体地说,我们确定模型参数,以便将这个新模型添加到集成中来减少损失。(注:“梯度推进”中的“梯度”指的是我们将对损失函数使用梯度下降法来确定新模型中的参数。) 最后,我们将新的模型加入到集成中,并且重复… 3、案例 我们首先加载训练和验证数据 X_train 、 X_valid 、 y_train 和 y_valid 。 import

全网最详细yolov1-yolov3原理

喜夏-厌秋 提交于 2020-01-13 05:26:57
文章目录 YOLO发展概述 YOLO v1~v3的设计历程 Yolov1 1. 核心思想 2. **网络结构** 3. Loss函数 4. 训练过程 5 .总结 Yolov2 1. 核心思想 2. 网络结构 3. Loss函数 4. 训练过程 5. 数据增强 6. 总结 Yolov3 1. 核心思想 2. 网络结构 3. loss 函数 4. 训练过程 5. Darknet框架 # YOLOv3原理 YOLO发展概述 2015 年,R-CNN 横空出世,目标检测 DL 世代大幕拉开。 各路豪杰快速迭代,陆续有了 SPP,fast,faster 版本,至 R-FCN,速度与精度齐飞,区域推荐类网络大放异彩。 奈何,未达实时检测之,难获工业应用之青睐。 此时,凭速度之长,网格类检测异军突起,先有 YOLO,继而 SSD,更是摘实时检测之桂冠,与区域推荐类二分天下。然却时遭世人诟病。 遂有 JR 一鼓作气,并 coco,推 v2,增加输出类别,成就 9000。此后一年,作者隐遁江湖,逍遥 twitter。偶获灵感,终推 v3,横扫武林! YOLO不断吸收同化对手,进化自己,提升战斗力:YOLOv1 吸收了 SSD 的长处(加了 BN 层,扩大输入维度,使用了 Anchor,训练的时候数据增强),进化到了 YOLOv2; 吸收 DSSD 和 FPN 的长处,仿 ResNet 的

【机器学习面试题】——集成学习

旧时模样 提交于 2020-01-12 02:13:02
文章目录 1. 什么是集成学习算法? 2. 集成学习主要有哪几种框架? 3. 简单介绍一下bagging,常用bagging算法有哪些? 4. 简单介绍一下boosting,常用boosting算法有哪些? 5. boosting思想的数学表达式是什么? 6. 简单介绍一下stacking,常用stacking算法有哪些? 7. 你意识到你的模型受到低偏差和高方差问题的困扰,应该使用哪种算法来解决问题呢?为什么? 8. 常用的基分类器是什么? 9. 可否将随机森林中的基分类器,由决策树替换为线性分类器或K-近邻?请解释为什么? 1. 什么是集成学习算法? 集成学习算法是一种优化手段或者策略 ,不算是一种机器学习算法。 集成方法是由多个较弱的模型集成模型组,一般的弱分类器可以是决策树,SVM,KNN等构成。其中的模型可以单独进行训练,并且它们的预测能以某种方式结合起来去做出一个总体预测。 该算法主要的问题是要找出哪些较弱的模型可以结合起来,以及如何结合的方法。 2. 集成学习主要有哪几种框架? 集成学习从集成思想的架构分为Bagging,Boosting,Stacking三种。 3. 简单介绍一下bagging,常用bagging算法有哪些? Bagging 多次采样,训练多个分类器,集体投票,旨在减小方差 , 基于数据 随机重抽样 的分类器构建方法

PRML读书会第十四章 Combining Models(committees,Boosting,AdaBoost,决策树,条件混合模型)

一个人想着一个人 提交于 2020-01-11 11:22:30
主讲人 网神 (新浪微博: @豆角茄子麻酱凉面 ) 网神(66707180) 18:57:18 大家好,今天我们讲一下第14章combining models,这一章是联合模型,通过将多个模型以某种形式结合起来,可以获得比单个模型更好的预测效果。包括这几部分: committees, 训练多个不同的模型,取其平均值作为最终预测值。 boosting: 是committees的特殊形式,顺序训练L个模型,每个模型的训练依赖前一个模型的训练结果。 决策树:不同模型负责输入变量的不同区间的预测,每个样本选择一个模型来预测,选择过程就像在树结构中从顶到叶子的遍历。 conditional mixture model条件混合模型:引入概率机制来选择不同模型对某个样本做预测,相比决策树的硬性选择,要有很多优势。 本章主要介绍了这几种混合模型。讲之前,先明确一下混合模型与Bayesian model averaging的区别,贝叶斯模型平均是这样的:假设有H个不同模型h,每个模型的先验概率是p(h),一个数据集的分布是: 整个数据集X是由一个模型生成的,关于h的概率仅仅表示是由哪个模型来生成的 这件事的不确定性。而本章要讲的混合模型是数据集中,不同的数据点可能由不同模型生成。看后面讲到的内容就明白了。 首先看committes,committes是一大类,包括boosting,首先将最简单的形式

DataWhale初级算法梳理—Task01:机器学习综述

梦想与她 提交于 2020-01-08 20:55:45
机器学习概述 1.机器学习分类 1.1 监督学习: 利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。监督学习的训练集要求包括输入和输出,主要应用于分类和预测。 1.2 非监督学习: 从数据集中发现隐含的某种结构,获得样本数据的结构特征,判断哪些数据比较相似。 1.3半监督学习 监督学习和非监督学习的结合,其在训练阶段使用的是未标记的数据和已标记的数据,不仅要学习属性之间的结构关系,也要输出分类模型进行预测。 1.4 强化学习: 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。 2.机器学习算法 2.1 线性算法(Linear Algorithms): 线性回归(Linear Regression)、套索回归(Lasso Regression)、岭回归(Ridge Regression)、逻辑回归(Logistic Regression) 2.2 决策树(Decision Tree): ID3、C4.5、CART 2.3 支持向量机(SVM) 2.4 朴素贝叶斯算法(Naive Bayes Algorithms): 朴素贝叶斯(Naive Bayes)

如何处理不均衡数据

和自甴很熟 提交于 2020-01-08 12:41:59
定义 以二分类问题为例,假设我们的数据集是S,数据集中的多数类为S_maj,少数类为S_min,通常情况下把多数类样本的比例为100:1,1000:1,甚至是10000:1,这种情况下为不平衡数据,不平衡数据的学习即需要在如此分布不均匀的数据集中学习到有用的信息。 问题:不均衡的数据理解预测起来很简单,永远都是预测多的数据的那一方,这样准没错,特别是数据多很多的情况的那一方,比如多的占了90%,少的占10%. 只要每一次都预测多的那一批数据,预测的准确性就可以达到90%了。 为什么类不平衡是不好的 1.从模型的训练过程来看 从训练模型的角度来说,如果某类的样本数量很少,那么这个类别所提供的“信息”就太少。 使用经验风险(模型在训练集上的平均损失)最小化作为模型的学习准则。设损失函数为0-1 loss(这是一种典型的均等代价的损失函数),那么优化目标就等价于错误率最小化(也就是accuracy最大化)。考虑极端情况:1000个训练样本中,正类样本999个,负类样本1个。训练过程中在某次迭代结束后,模型把所有的样本都分为正类,虽然分错了这个负类,但是所带来的损失实在微不足道,accuracy已经是99.9%,于是满足停机条件或者达到最大迭代次数之后自然没必要再优化下去,训练结束,于是模型没有学习到如何去判别出少数类。 2.从模型的预测过程来看 考虑二项Logistic回归模型

01-机器学习基础

天涯浪子 提交于 2020-01-08 09:26:05
第1章 机器学习基础 机器学习 概述 机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。 海量的数据 获取有用的信息 机器学习 研究意义 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

Coursera《machine learning》--(2)单变量线性回归(Linear Regression with One Variable)

穿精又带淫゛_ 提交于 2020-01-08 04:58:55
本笔记为 Coursera在线课程 《Machine Learning》中的单变量线性回归章节的笔记。 2.1 模型表示 参考视频 : 2 - 1 - Model Representation (8 min).mkv 本课程讲解的第一个算法为 " 回归算法 " ,本节将要讲解到底什么是 Model 。下面,以一个房屋交易问题为例开始讲解,如下图所示(从中可以看到监督学习的基本流程)。 所使用的数据集为俄勒冈州波特兰市的住房价格,根据数据集中的不同房屋尺寸所对应的出售价格,绘制出了数据集;假如,现在有朋友想要出售自己的房子,例如,大小是 1250 平方尺,你需要告诉他,这个房子可以买到多少钱?你可以做的一件事情是,构造一个模型,从数据模型来看,也许是条直线,然后,你可以告诉你的朋友,他的房子大概可以卖到 220000 美元。这就是一个监督学习方法的例子,因为,我们对数据集中的每个样本都给出了 " 正确答案 "( 对于某一尺寸的房子来说,我们给出了该房子的正确售价 ) 。更加具体地讲,这是一个 回归问题 , " 回归 " 一词是指,根据之前的数据预测出一个准确的输出值。还有另外一种监督学习方法,叫做 分类问题 ,例如,如果我们正在寻找癌症肿瘤并想要确定肿瘤是良性的还是恶性的,这就是 0/1 离散输出问题。 更进一步来说,在监督学习中,我们有一个数据集,这个数据集被称为 训练集

python 模型效果的呈现结果

情到浓时终转凉″ 提交于 2020-01-06 21:20:46
一.二分类的正确率 or 预测正确的样本个数 from sklearn import metrics y_pred = my_model . predict ( x_test ) #####my_model是经过x_train和y_train以及模型算法进行参数调优的训练模型结果,y_pred是测试数据的预测值 metrics . accuracy_score ( y_test , y_pred ) ##模型预测正确率;metrics.accuracy_score(y_test,y_pred,normalize=True,sample_weight=None)normalize=True返回的结果是预测正确率,normalize=False返回的是预测样本的正确样本数,sample_weight每个样本的权重,默认是None即每个样本的权重是1,sample_weight的长度必须是和y_test的长度一样 来源: CSDN 作者: fight_for_ours 链接: https://blog.csdn.net/qq_40577144/article/details/103863898

机器学习常见评估指标

本秂侑毒 提交于 2020-01-01 18:49:39
开篇:最近回顾了系列的算法学习资料,整理了算法的学习流程,从问题出发,怎么用算法解决实际业务中的case。 当接到需求时,首先需要深入了解需求场景,将需求转换为算法可以解决的问题,我们大部分遇到的是分类和回归的场景。需要我们深入理解问题,收集足够多的数据,从不同的纬度分析,对该问题完成建模。对于需求场景中定义成问题,完成问题的建模,这是最重要的部分。接下来都是一些套路的流程,对数据进行特征抽取,不同维度分析数据等特征工程,根据模型复杂度、数据的稀疏、线性与非线性等筛选出适合的模型。在此基础上进一步提高效果的模型融合等等(后续慢慢会讲到 首先我们需要了解怎么评估建模的好坏。根据问题场景的不同,定义不同的评价指标,用来评价建模的好坏的程度。这个评估指标,一般作为模型的评估,真正线上的情况要根据不同场景的业务指标来衡量。 分类指标 准确率 通俗理解就是对于预测的所有数据,预测正确的数据占全部预测数据的比例。 如图中是模型对数据进行的预测,左右两个矩形表示正负样本集(正样本简称P负样本简称N),左侧红色半圆true positives表示模型正确预测为正样本的数据简称TP,剩余部分是false negatives,表示样本的真实标签是正样本,但是模型预测为负样本的数据,简称FN,右侧红色半圆部分false positives表示数据的真实标签是负样本,但是模型预测为正样本的数据,简称FP