预测模型

多模型融合推荐算法

China☆狼群 提交于 2020-02-24 06:13:27
常见的多模型融合算法 多模型融合算法可以比单一模型算法有极为明显的效果提升。但是怎样进行有效的融合,充分发挥各个算法的长处?这里总结一些常见的融合方法: 1. 线性加权融合法 线性加权是最简单易用的融合算法,工程实现非常方便,只需要汇总单一模型的结果,然后按不同算法赋予不同的权重,将多个推荐算法的结果进行加权,即可得到结果: 是给用户(user)推荐商品(item)的得分, 是算法K的权重,是算法k得到的用户(user)对商品item的推荐得分。这种融合方式实现简单,但效果较差。因为线性加权的参数是固定的,实践中参数的选取通常依赖对全局结果升降的总结,一旦设定后,无法灵活的按照不同的推荐场景来自动变换。比如如果某个场景用算法A效果较好,另外一种场景用算法B效果较好,线性融合的方式在这种情况下不能取得好的效果。为了解决这个问题,达观数据进行了改进,通过引入动态参数的机制,通过训练用户对推荐结果的评价、与系统的预测是否相符生成加权模型,动态的调整权重使得效果大幅提升。 2. 交叉融合法 交叉融合常被称为Blending方法,其思路是在推荐结果中,穿插不同推荐模型的结果,以确保结果的多样性。 这种方式将不同算法的结果组合在一起推荐给用户。 交叉融合法的思路是“各花入各眼”,不同算法的结果着眼点不同,能满足不同用户的需求,直接穿插在一起进行展示

BERT

会有一股神秘感。 提交于 2020-02-22 05:35:39
转:https://www.cnblogs.com/rucwxb/p/10277217.html 【NLP】彻底搞懂BERT 自google在2018年10月底公布BERT在11项nlp任务中的卓越表现后,BERT(Bidirectional Encoder Representation from Transformers)就成为NLP领域大火、整个ML界略有耳闻的模型,网上相关介绍也很多,但很多技术内容太少,或是写的不全面半懂不懂,重复内容占绝大多数(这里弱弱吐槽百度的搜索结果多样化。。) 一句话概括,BERT的出现,彻底改变了预训练产生词向量和下游具体NLP任务的关系,提出龙骨级的训练词向量概念。 目录:   词向量模型:word2vec, ELMo, BERT比较   BERT细则:Masked LM, Transformer, sentence-level   迁移策略:下游NLP任务调用接口   运行结果:破11项NLP任务最优纪录 一、词向量模型 这里主要横向比较一下word2vec,ELMo,BERT这三个模型,着眼在模型亮点与差别处。 传统意义上来讲,词向量模型是一个工具,可以把真实世界抽象存在的文字转换成可以进行数学公式操作的向量,而对这些向量的操作,才是NLP真正要做的任务。因而某种意义上,NLP任务分成两部分,预训练产生词向量,对词向量操作(下游具体NLP任务

ML.NET 示例:回归之销售预测

≡放荡痞女 提交于 2020-02-21 05:38:12
写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正。 如果有朋友对此感兴趣,可以加入我: https://github.com/feiyun0112/machinelearning-samples.zh-cn eShopDashboardML - 销售预测 ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 v0.7 动态 API 最新版本 ASP.NET Core Web应用程序和控制台应用程序 SQL Server 和 .csv 文件 销售预测 回归 FastTreeTweedie 回归 eShopDashboardML是一个使用 ML.NET 进行(每个产品和每个地区)销售预测的Web应用程序。 概述 这个终端示例应用程序通过展现以下主题着重介绍ML.NET API的用法: 如何训练,建立和生成ML模型 使用.NET Core实现一个 控制台应用程序 。 如何使用经过训练的ML模型做下个月的销售预测 使用 ASP.NET Core Razor 实现一个独立的,单体 Web应用程序 。 该应用程序还使用一个SQL Server数据库存储常规产品目录和订单信息,就像许多使用SQL Server的典型Web应用程序一样。在本例中,由于它是一个示例

ML.NET 示例:回归之价格预测

偶尔善良 提交于 2020-02-21 05:36:08
写在前面 准备近期将微软的machinelearning-samples翻译成中文,水平有限,如有错漏,请大家多多指正。 如果有朋友对此感兴趣,可以加入我: https://github.com/feiyun0112/machinelearning-samples.zh-cn 出租车费预测 ML.NET 版本 API 类型 状态 应用程序类型 数据类型 场景 机器学习任务 算法 v0.7 动态 API 最新版本 控制台应用程序 .csv 文件 价格预测 回归 Sdca 回归 在这个介绍性示例中,您将看到如何使用 ML.NET 预测出租车费。在机器学习领域,这种类型的预测被称为 回归 问题 这个问题主要集中在预测纽约出租车的行程费用。从表面看,它似乎仅仅取决于行程的距离。但是,由于其他因素(比如额外的乘客或使用信用卡而非现金付款),纽约的出租车供应商收费不同。这种预测可用于出租车供应商向用户和司机提供乘车费用的估计。 为了解决这个问题,我们将使用下列输入建立一个ML模型: 供应商ID 费率代码 乘客数量 出行时间 出行距离 支付方式 并预测乘车的费用。 ML 任务 - 回归 回归 的广义问题是预测给定参数的某些连续值,例如: 根据房间的数量、位置、建造年份等预测房子的价格。 根据燃油类型和汽车参数预测汽车燃油消耗量。 预测基于问题属性来修复问题的时间估计。

XGBoost多分类预测

ぃ、小莉子 提交于 2020-02-19 03:51:51
XGBoost多分类预测 1. 数据预处理 对缺失值进行填充 根据业务增加衍生变量,比如占比、分级化、TOP打横等等 根据业务删除相应的指标 对离散型的指标进行one-hot序列编码 2. 模型选择 可以进行多分类预测的模型有 逻辑回归、决策树、神经网络、随机森林、xgboost ,发现效果排名靠前的依次是 XGBoost、随机森林、决策树 3. 模型调用 通过调用python相关包,对XGBoost分类模型进行参数调整,使模型效果更好。 # 导入的包 from xgboost . sklearn import XGBClassifier # 调用XGBClassifier方法,括号内都是默认的参数值,可对这些参数进行调整 XGBClassifier ( base_score = 0.5 , booster = 'gbtree' , colsample_bylevel = 1 , colsample_bynode = 1 , colsample_bytree = 1 , gamma = 0 , learning_rate = 0.1 , max_delta_step = 0 , max_depth = 8 , min_child_weight = 1 , missing = None , n_estimators = 100 , n_jobs = 1 , nthread =

动手学深度学习之lenet

妖精的绣舞 提交于 2020-02-18 16:33:39
参考伯禹学习平台《动手学深度学习》课程内容内容撰写的学习笔记 原文链接:https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/lesson/cuwTT4MTwpHpKfaKKDcYQt 感谢伯禹平台,Datawhale,和鲸,AWS给我们提供的免费学习机会!! 总的学习感受:伯禹的课程做的很好,课程非常系统,每个较高级别的课程都会有需要掌握的前续基础知识的介绍,因此很适合本人这种基础较差的同学学习,建议基础较差的同学可以关注伯禹的其他课程: 数学基础:https://www.boyuai.com/elites/course/D91JM0bv72Zop1D3 机器学习基础:https://www.boyuai.com/elites/course/5ICEBwpbHVwwnK3C course content lenet 模型介绍 lenet 网络搭建 运用lenet进行图像识别-fashion-mnist数据集 Convolutional Neural Networks 使用全连接层的局限性:(数据集中图像大小28*28,展开成一个764) 图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。 对于大尺寸的输入图像,使用全连接层容易导致模型过大。 使用卷积层的优势: 卷积层保留输入形状。

金融风控信用卡评分建模

白昼怎懂夜的黑 提交于 2020-02-17 23:03:15
一、引言 如何利用机器学习以及大数据技术来降低风险呢?如何建立信用评分的模型呢?本文将针对这些问题简单介绍互金行业中授信产品的风控建模过程,内容主要如下: ·信用风险定义 ·信用风险评分卡类型 ·信用评分模型建立的基本流程 1.信用风险定义 ①风险管理的概念 风险管理最早起源于美国。1930年由美国管理协会保险部最先倡导风险管理,后面在全球流行开来,随着互联网的迅猛发展,大数据、数据挖掘和机器学习等新兴技术开始出现,让风险管理更为精准。他们通过收集银行系统本身的征信数据以及用户在互联网上的的各种数据,包括人际关系、历史消费行为、身份特征等,通过大数据“画像”技术,对用户进行全面的定位,由此来预测用户的履约能力、降低信贷风险。 ②什么是信用风险? 信用风险又称违约风险,是指借款人、证券发行人或交易对方因种种原因,不愿或无力履行合同条件而构成违约,致使银行、投资者或交易对方遭受损失的可能性。即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风险的主要类型。 万事都有风险,但对于金融行业来讲,风险控制尤为重要。对于海量的用户数据处理,传统的人工授信方式显然是很乏力的,因此现在大多互联网金融P2P公司都采用机器学习、大数据等技术对风险进行自动化评估,来最大程度的降低风险。当然,这些技术的应用并不能百分百的保证零风险,因为有很多人为因素是不可控的

《动手学深度学习》Day2:Softmax与分类模型

爱⌒轻易说出口 提交于 2020-02-16 10:08:15
文章目录 一、softmax的基本概念 二、交叉熵损失函数 三、模型训练和预测 四、获取Fashion-MNIST训练集和读取数据 五、softmax的Pytorch简实现 5.1初始化参数和获取数据 5.2 定义网络模型 5.3 初始化模型参数 5.4 定义损失函数 5.5 定义优化函数 5.6 训练 一、softmax的基本概念 1.分类问题 一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。 图像中的4像素分别记为 x 1 , x 2 , x 3 , x 4 x_1,x_2,x_3,x_4 x 1 ​ , x 2 ​ , x 3 ​ , x 4 ​ 。 假设真实标签为狗、猫或者鸡,这些标签对应的离散值为 y 1 , y 2 , y 3 y_1,y_2,y_3 y 1 ​ , y 2 ​ , y 3 ​ 。 我们通常使用离散的数值来表示类别,例如 y 1 = 1 , y 2 = 2 , y 3 = 3 y_1=1,y_2=2,y_3=3 y 1 ​ = 1 , y 2 ​ = 2 , y 3 ​ = 3 。 2.权重矢量 3.神经网络图 下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样,也是一个单层神经网络。由于每个输出 o 1 , o 2 , o 3 o_1,o_2,o_3 o 1 ​ , o 2 ​ , o 3 ​ 的计算都要依赖于所有的输入

LinearRegression

孤街醉人 提交于 2020-02-15 16:10:07
线性回归 主要内容包括: 线性回归的基本要素 线性回归模型从零开始的实现 线性回归模型使用pytorch的简洁实现 线性回归的基本要素 模型 为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系: p r i c e = w a r e a ⋅ a r e a + w a g e ⋅ a g e + b price=w_{area}⋅area+w_{age}⋅age+b p r i c e = w a r e a ​ ⋅ a r e a + w a g e ​ ⋅ a g e + b 数据集 我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。在机器学习术语里,该数据集被称为训练数据集(training data set)或训练集(training set),一栋房屋被称为一个样本(sample),其真实售出价格叫作标签(label),用来预测标签的两个因素叫作特征(feature)。特征用来表征样本的特点。 损失函数 1、 M A E / L 1 + M S E / L 2 MAE / L1 + MSE / L2 M A E / L 1 + M S E / L

softmax-pytorch

白昼怎懂夜的黑 提交于 2020-02-15 12:43:28
softmax和分类模型 内容包含: softmax回归的基本概念 如何获取Fashion-MNIST数据集和读取数据 softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型 使用pytorch重新实现softmax回归模型 softmax的基本概念 分类问题 一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。 图像中的4像素分别记为 x 1 , x 2 , x 3 , x 4 x_1, x_2, x_3, x_4 x 1 ​ , x 2 ​ , x 3 ​ , x 4 ​ 。 假设真实标签为狗、猫或者鸡,这些标签对应的离散值为 y 1 , y 2 , y 3 y_1, y_2, y_3 y 1 ​ , y 2 ​ , y 3 ​ 。 我们通常使用离散的数值来表示类别,例如 y 1 = 1 , y 2 = 2 , y 3 = 3 y_1=1, y_2=2, y_3=3 y 1 ​ = 1 , y 2 ​ = 2 , y 3 ​ = 3 。 权重矢量 o 1 = x 1 w 11 + x 2 w 21 + x 3 w 31 + x 4 w 41 + b 1 \begin{aligned} o_1 &= x_1 w_{11} + x_2 w_{21} + x_3 w_{31} + x_4 w_{41} + b_1