预测模型

AI Studio在线部署及预测说明

ⅰ亾dé卋堺 提交于 2020-03-05 14:21:44
目录 功能说明 通过训练任务生成模型文件 创建一个在线服务 3.1 第一步 选择模型文件 3.2 第二步 确认输入输出 3.3 第三步 制作参数转换器 3.4 第四步 沙盒部署 测试沙盒服务 4.1 第一步 点击【测试】打开测试页面 4.2 第二步 填写json格式请求参数 4.3 第三步 点击【发送】检验返回结果 部署在线服务 调用在线服务 6.1 请求方式 6.2 调用示例 功能说明 在线部署与预测为开发者提供训练模型向应用化API转换的功能. 开发者在AI Studio平台通过NoteBook项目完成模型训练后, 在Notebook详情页通过创建一个在线服务, 应用模型生成在线API, 使用该API可以直接检验模型效果或实际应用到开发者的私有项目中.目前, 该功能暂时 仅对Notebook项目 开放。 通过训练任务生成模型文件 在训练任务过程中, 通过调用 paddle.fluid.io.save_inference_model ` 实现模型的保存 ,保存后的目录需要可以被在线服务使用. 我们以房价预测的线性回归任务为例, 具体代码如下 import paddle import paddle.fluid as fluid import numpy import math import sys from __future__ import print_function

信息抽取——实体关系联合抽取

杀马特。学长 韩版系。学妹 提交于 2020-03-04 05:24:23
目录 简介 实体关系联合抽取 Model 1: End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures Model 2: Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme Model 3: Joint entity recognition and relation extraction as a multi-head selection problem Model 4: 基于DGCNN和概率图的轻量级信息抽取模型 Model 5: Entity-Relation Extraction as Multi-turn Question Answering Model 6: A Novel Hierarchical Binary Tagging Framework for Joint Extraction of Entities and Relations 小结 简介 通常,早期的信息抽取将实体抽取和关系抽取看作串联的任务,这样的串联模型在建模上相对更简单,但这样将实体识别和关系抽取当作两个独立的任务明显会存在一系列的问题: 两个任务的解决过程中没有考虑到两个子任务之间的相关性

1.机器学习之模型评估详解

不问归期 提交于 2020-03-02 02:07:13
模型评价是指对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。常用的聚类模型评价指标有ARI评价法(兰德系数)、AMI评价法(互信息)、V-measure评分、FMI评价法和轮廓系数等。常用的分类模型评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1 Value)、ROC和AUC等。常用的回归模型评价指标有平均绝对误差、均方根误差、中值绝对误差和可解释方差值等。 线性回归解决的是连续型数值的预测问题,例如预测房价,产品销量等。 逻辑回归解决的是分类问题,从分类数量上看,有二项分类和多项分类。 sklearn库的metrics模块提供各种评估方法,包括分类评估、回归评估、聚类评估和交叉验证等,评估分类是判断预测值时否很好的与实际标记值相匹配。正确的鉴别出正样本(True Positives)或者负样本(True Negatives)都是True。同理,错误的判断正样本(False Positive,即一类错误)或者负样本(False Negative,即二类错误)。 注意:True和False是对于评价预测结果而言,也就是评价预测结果是正确的(True)还是错误的(False)。而Positive和Negative则是样本分类的标记。 metrics模块分类度量有6种方法,如下表所示: 指标 描述

YOLO v2 / YOLO9000论文详解

╄→尐↘猪︶ㄣ 提交于 2020-03-02 01:14:56
YOLO9000:Better, Faster, Stronger 声明:笔者翻译论文仅为学习研究,如有侵权请联系作者删除博文,谢谢 ! 源论文地址: https://arxiv.org/abs/1612.08242 注 :文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方,斜体部分为笔者的一些想法,因水平所限,部分笔触可能有不实和错误之处,敬请广大读者批评指正,让我们一起进步~ YOLO v2 和 YOLO 9000 可以看成是两部分,其中v2是对v1的各个部分进行技术上的加持和改进;9000是对数据集和检测类别进行扩展。这里我们重点说YOLO v2部分。 v2相对于v1来说,速度更快、精度更高。 具体改进措施有以下几点: 1. 各卷积层后添加BN层; 2. YOLO2在采用 224×224 图像进行分类模型预训练后,再采用 448×448 的高分辨率样本对分类模型进行微调(10个epoch),使网络特征逐渐适应 448×448 的分辨率。然后再使用 448×448 的检测样本进行训练,缓解了分辨率突然切换造成的影响; 3. 引入anchor boxes(召回率上升,准确率略微下降),448×448 -> 416×416 通过使用K-means聚类方法筛选出一个网格cell里预测5个锚点框最合适; 通过给anchor

面向软件工程师的卡尔曼滤波器

孤街醉人 提交于 2020-03-01 12:08:07
与我的朋友交谈时,我经常听到:“哦,卡尔曼(Kalman)滤波器……我经常学它,然后我什么都忘了”。好吧,考虑到卡尔曼滤波器(KF)是世界上应用最广泛的算法之一(如果环顾四周,你80%的技术可能已经在内部运行某种KF),让我们尝试将其弄清楚。 在这篇文章的结尾,你将对KF的工作原理,其背后的想法,为什么需要多个变体以及最常见的变体有一个直观而详细的了解。 状态估计 KF是所谓的状态估计算法的一部分。什么是状态估计?假设你有一个系统(让我们将其视为黑箱)。黑箱可以是任何东西:你的风扇,化学系统,移动机器人。对于这些系统中的每一个,我们都可以定义一个状态。状态是我们关心的变量向量,可以描述系统处于特定时间点的“状态”(这就是为什么将其称为状态)。“可以描述”是什么意思?这意味着,如果你了解当时的状态向量k和提供给系统的输入,则可以了解当时的k+1的系统状态(与此同时使用系统工作原理的一些知识)。 例如,假设我们有一个移动的机器人,并且我们关心其在空间中的位置(并且不在乎其方向)。如果我们将状态定义为机器人的位置(x, y)及其速度,( v x v_x v x ​ , v y v_y v y ​ )并且我们有一个机器人如何运动的模型,那么就足以确定机器人的位置以及下一个时刻的位置。 因此,状态估计算法估计系统的状态。为什么要估算呢?因为在现实生活中,外部观察者永远无法访问系统的真实状态

论文学习--数据挖掘必读论文01:The WEKA data mining software: an update

北慕城南 提交于 2020-03-01 10:42:10
论文原文 论文下载 论文被引:20211 论文年份:2009 WEKA:Weka是经过实践检验的开源机器学习软件,可以通过图形用户界面,标准终端应用程序或Java API进行访问。它被广泛用于教学,研究和工业应用,包含用于标准机器学习任务的大量内置工具,并且可以透明地访问scikit-learn,R和Deeplearning4j等知名工具箱。 WEKA官网 WEKA下载 The WEKA data mining software: an update ABSTRACT More than twelve years have elapsed since the first public release of WEKA. In that time, the software has been rewritten entirely from scratch, evolved substantially and now accompanies a text on data mining [35]. These days, WEKA enjoys widespread acceptance in both academia and business, has an active community, and has been downloaded more than 1.4 million

【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)

China☆狼群 提交于 2020-03-01 09:12:18
上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建。用深度学习做文字识别,用的网络当然是CNN,那具体使用哪个经典网络?VGG?RESNET?还是其他?我想了下,越深的网络训练得到的模型应该会更好,但是想到训练的难度以及以后线上部署时预测的速度,我觉得首先建立一个比较浅的网络(基于LeNet的改进)做基本的文字识别,然后再根据项目需求,再尝试其他的网络结构。这次任务所使用的深度学习框架是强大的Tensorflow。 网络搭建 第一步当然是搭建网络和计算图 其实文字识别就是一个多分类任务,比如这个3755文字识别就是3755个类别的分类任务。我们定义的网络非常简单,基本就是LeNet的改进版,值得注意的是我们加入了batch normalization。另外我们的损失函数选择sparse_softmax_cross_entropy_with_logits,优化器选择了Adam,学习率设为0.1 #network: conv2d->max_pool2d->conv2d->max_pool2d->conv2d->max_pool2d->conv2d->conv2d->max_pool2d->fully_connected->fully_connected def build

天池数据竞赛 | 工业蒸汽量预测(完整代码分享)

帅比萌擦擦* 提交于 2020-03-01 02:26:12
BY:乔木 目录 题目描述 一、导入数据 | 观察数据 二、特征工程 三、模型训练 模型1: Lasso回归 模型2: 支持向量回归(SVR) 模型3: XGB回归(XGBRegressor ) 四、模型评估 五、模型预测 题目描述 比赛链接: 工业蒸汽量预测 赛题背景 火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。 在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。 赛题描述 经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。 数据说明 数据分成训练数据(train.txt)和测试数据(test.txt),其中字段 V0-V37,这38个字段是作为特征变量,target作为目标变量。 选手利用训练数据训练出模型,预测测试数据的目标变量,排名结果依据预测结果的 MSE(mean square error)。 结果提交 选手需要提交测试数据的预测结果(txt格式,只有1列预测结果)。 结果评估 预测结果以mean square error作为评判标准。 一、导入数据 | 观察数据

你的颜值能打多少分?让飞桨来告诉你

穿精又带淫゛_ 提交于 2020-02-28 19:32:02
【飞桨开发者说】钟山,中科院信工所工程师,主要研究计算机视觉、深度学习。 想必很多人都对自己的颜值到底怎样充满好奇,也有很多软件为大家提供了颜值打分的趣味功能。其实,颜值打分也可以视为一个图像分类问题,今天就向大家介绍如何利用飞桨搭建一个VGG网络,实现一个简单的颜值打分demo。 ​ 01 VGGNet介绍 VGGNet 由牛津大学的视觉几何组(Visual Geometry Group)和 Google DeepMind 公司提出,是 ILSVRC-2014 中定位任务第一名和分类任务第二名。提出 VGGNet 的主要目的是为了探究在大规模图像识别任务中,卷积网络深度对模型精确度的影响。通过VGGNet,研究人员证明了基于尺寸较小的的卷积核,增加网络深度可以有效提升模型的效果。VGGNet结构简单,模型的泛化能力好,因此受到研究人员青睐而广泛使用,到现在依然经常被用作图像特征提取。 VGGNet引入“模块化”的设计思想,将不同的层进行简单的组合构成网络模块,再用模块来组装完整网络,而不再是以“层”为单元组装网络。VGGNet有5种不同的VGGNet 配置,如上表所示。其中每一列代表一种网络配置,分别用 A~E 来表示。从表格中可以看出所有VGG配置都有五个卷积模块,模块中所有卷积都是3×3卷积核(conv3),因此特征图的尺寸在模块内不是变的,每个模块卷积之后紧接着最大池化层

正负样本极不平衡带来的影响

大城市里の小女人 提交于 2020-02-28 07:39:41
假设特征有效,正负样本在特征空间里的分布是有差别的,比如有的空间区域正负样本比例是1:10,而有的区域正负样本比例是1:1000000,即特征对于样本预测仍然有效,而模型尝试学习的就是这个映射关系。 但由于样本不均衡,在大部分特征空间区域,仍然是预测为负样本会带来更小的损失,从而导致模型失效,或者预测值总是集中的0附近。 也就是说预测偏向样本数较多的分类。这样就会大大降低模型的范化能力。往往accuracy(准确率)很高,但auc很低。 来源: CSDN 作者: 御剑归一 链接: https://blog.csdn.net/wj1298250240/article/details/104540720