特征选择

RPA利器UiBot开发指南https://www.cnblogs.com/zxx193/p/11857555.html

怎甘沉沦 提交于 2019-12-04 20:04:12
UiBot官方 开发者指南 >> 一、简介 1.什么是RPA? Robotic Process Automation,中文翻译为机器人流程自动化,简称 RPA。 RPA是软件机器人,用来 完成计算机上重复的工作 。 2.UiBot是什么? UiBot是一种RPA平台 3.RPA平台组成部分 1.开发工具:制作、运行、调试软件机器人 2.运行工具:普通用于运行已有流程,查阅结果。 3.控制中心:对多台PC上的机器人集中控制(分发流程、设定启动条件等) Creator把流程先上传到Commander,再由Commander统一下发给各个Worker,并统一指挥各个Worker执行流程 UiBot的三个组成部分 二、基本概念 流程 > 流程快 > 命令 > 属性 1.流程: UiBot流程是一连串的执行动作,以流程图的方式显示,包含一个文件夹。 2.流程图: 包含“开始”、“结束”、“流程块”和“判断”四种元素,用箭头连起来。 只能有一个“开始”元素,可以有多个“结束”元素,可以有多个“判断”元素,至少一个“流程块”。 一个流程分多个步骤,每个步骤用流程块来描述(冰箱打开 -> 装进大象 -> 关上冰箱)。 推荐把逻辑独立的封装成一个流程块,留个流程块最好不要超过20个,多个沟通起来困难。 3.可视化视图 命令:把一个步骤具体细化成命令去执行,如:模拟鼠标、键盘操作,对窗口、浏览器操作等

Tableau 分群

左心房为你撑大大i 提交于 2019-12-04 11:22:51
对数据的特征进行分析,分群。 数据选用的是Iris data 下载地址:http://archive.ics.uci.edu/ml/machine-learning-databases/iris/ 1.下载后的数据文件是.data格式,直接选择用Tableau导入,选择Text file,文件类型选所有类型将Iris.data添加进去 2.修改列名 3.分析的时候将工具栏->Analysis->Aggregate Measures关闭。 4.根据花萼宽和花萼长标记出每个点,再加上种类进行分类。如下图所示 5.根据花萼宽和花萼长进行分群,左侧Analytics->Cluster进行分群。Marks中选择Clusters,右击->Edit Clusters->Number of Clusters 选3个 因为3个种类。 将Clusters移到Dimensions作为一个维度,对该唯独Edit Group将三个群名字改为3个种类的名字。 创建一个判断分群的维度,计算公式如下。分群与类别相同时,则为真,否则为假。 6.通过判断分群的维度,给出直方图,测度选择Number of Records。 7.最后通过DashBoard给出详细的视觉化对比图。 通过添加Actoins 给出高亮效果,看出哪几个是分群错误的。分类和分群前面需要加上分群判断的Mark才可以联动。 最后可以看出

特征选择算法学习2

独自空忆成欢 提交于 2019-12-04 03:32:41
特征选择算法学习笔记2 主要讲一下常见的评价函数 评价函数就是给特征选择后选择的好坏做一个直观额解释。。和智能算法中的评价函数是一样的,总得量化展示的 (一)思维导图 个人感觉这个图交代的挺清楚地儿。。可以概括。。源地址https://www.cnblogs.com/babyfei/p/9674128.html (二)特征选择中常见的评价函数主要分为三种 过滤式 filter 包裹式 wrapper 嵌入式 embeded 过滤式 filter 1.定义:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。 简单的来说就是利用概率统计的方法进行评价。。 2.常见方法: 2.1 相关性( Correlation) 运用相关性来度量特征子集的好坏是基于这样一个假设:好的特征子集所包含的特征应该是与分类的相关度较高(相关度高),而特征之间相关度较低的(亢余度低)。可以使用线性相关系数(correlation coefficient) 来衡量向量之间线性相关度。其实就是person相关系数,在R里面的函数就是cor().. 2.2 距离 (Distance Metrics ) 运用距离度量进行特征选择是基于这样的假设:好的特征子集应该使得属于同一类的样本距离尽可能小,属于不同类的样本之间的距离尽可能远。 常用的距离度量(相似性度量

地理文本处理技术在高德的演进(下)

房东的猫 提交于 2019-12-03 20:50:47
​在上篇里,我们介绍了地理文本处理技术在高德的整体演进,选取了几个通用query分析的点进行了介绍。下篇中,我们会选取几个地图搜索文本处理中特有的文本分析技术做出分析,包括城市分析,wherewhat分析,路径规划,并对未来做一下展望。 四、query分析技术演进 4.1 城市分析 在高德地图的检索场景下,从基础的地图数据索引、到在线召回、最终产品展示,均以市级别行政单位为基础粒度。一次完整的检索需求除了用户输入的query外,还会包含用户的图面城市以及用户位置城市两个城市信息。 通常,大多数的搜索意图都是在图面或者用户位置城市下,但是仍存在部分检索意图需要在其他城市中进行,准确的识别出用户请求的目标城市,是满足用户需求的第一步,也是极其重要的一步。 在query分析策略流程中,部分策略会在城市分析的多个结果下并发执行,所以在架构上,城市分析的结果需要做到少而精。同时用户位置城市,图面城市,异地城市三个城市的信息存在明显差异性,不论是先验输出置信度,还是用后验特征做选择,都存在特征不可比的问题。 在后验意图决策中,多个城市都有相关结果时,单一特征存在说服力不足的问题,如何结合先验置信度和后验的POI特征等多维度进行刻画,都是我们要考虑的问题。 原始的城市分析模块已经采用先验城市分析和后验城市选择的总体流程 但是原始的策略比较简陋,存在以下问题: 问题1:先验和后验两部分均基于规则

地理文本处理技术在高德的演进(下)

我的梦境 提交于 2019-12-03 20:46:14
​在上篇里,我们介绍了地理文本处理技术在高德的整体演进,选取了几个通用query分析的点进行了介绍。下篇中,我们会选取几个地图搜索文本处理中特有的文本分析技术做出分析,包括城市分析,wherewhat分析,路径规划,并对未来做一下展望。 四、query分析技术演进 4.1 城市分析 在高德地图的检索场景下,从基础的地图数据索引、到在线召回、最终产品展示,均以市级别行政单位为基础粒度。一次完整的检索需求除了用户输入的query外,还会包含用户的图面城市以及用户位置城市两个城市信息。 通常,大多数的搜索意图都是在图面或者用户位置城市下,但是仍存在部分检索意图需要在其他城市中进行,准确的识别出用户请求的目标城市,是满足用户需求的第一步,也是极其重要的一步。 在query分析策略流程中,部分策略会在城市分析的多个结果下并发执行,所以在架构上,城市分析的结果需要做到少而精。同时用户位置城市,图面城市,异地城市三个城市的信息存在明显差异性,不论是先验输出置信度,还是用后验特征做选择,都存在特征不可比的问题。 在后验意图决策中,多个城市都有相关结果时,单一特征存在说服力不足的问题,如何结合先验置信度和后验的POI特征等多维度进行刻画,都是我们要考虑的问题。 原始的城市分析模块已经采用先验城市分析和后验城市选择的总体流程 但是原始的策略比较简陋,存在以下问题: 问题1:先验和后验两部分均基于规则

【sklearn】特征选择和降维

故事扮演 提交于 2019-12-03 06:54:31
1.13 特征选择 sklearn.feature_selection模块中的类可以用于样本集上的特征选择/降维,以提高估计器的精度值,或提高其应用在高维数据集上的性能。 1.13.1 删除低方差的特征 VarianceThreshold是一种简单的特征选择baseline方法。它删除了方差不满足某个阈值的所有特性。 默认情况下,它会删除所有的零方差特性,即在所有样本中具有相同值的特性。 例如,假设我们有一个具有布尔特征的数据集,并且我们想要删除超过80%的样本中所有要么为1要么为0(开或关)的特征。 布尔特征是伯努利随机变量,其方差为 \(\mathrm{Var}[X] = p(1 - p)\) 所以我们可以选择使用阈值 .8 * (1 - .8): from sklearn.feature_selection import VarianceThreshold X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]] sel = VarianceThreshold(threshold=(.8 * (1 - .8))) sel.fit_transform(X) array([[0, 1], [1, 0], [0, 0], [1, 1], [1, 0], [1, 1]])

特征选择之FeatureSelector工具

匿名 (未验证) 提交于 2019-12-03 00:40:02
项目地址: https://github.com/WillKoehrsen/feature-selector 特征选择(feature selection)是查找和选择数据集中最有用特征的过程,是机器学习流程中的一大关键步骤。不必要的特征会降低训练速度、降低模型可解释性,并且最重要的是还会降低其在测试集上的泛化表现。 目前存在一些专用型的特征选择方法,我常常要一遍又一遍地将它们应用于机器学习问题,这实在让人心累。所以我用 Python 构建了一个特征选择类并开放在了 GitHub 上。这个 FeatureSelector 包含一些最常用的特征选择方法: 具有高缺失值百分比的特征 共线性(高度相关的)特征 在基于树的模型中重要度为零的特征 重要度较低的特征 具有单个唯一值(unique value)的特征 在本文中,我们将介绍在示例机器学习数据集上使用 FeatureSelector 的全过程。我们将看到如何快速实现这些方法,从而实现更高效的工作流程。 完整代码已在 GitHub 上提供,欢迎任何人贡献。这个特征选择器是一项正在进行的工作,将根据社区需求继续改进! 为了进行演示,我们将使用来自 Kaggle「家庭信用违约风险」机器学习竞赛的一个数据样本。 这个竞赛是一个监督分类问题,这也是一个非常合适的数据集,因为其中有很多缺失值、大量高度关联的(共线性)特征

机器学习中特征选择的方法综述

匿名 (未验证) 提交于 2019-12-03 00:22:01
本文摘自知乎用户文章的第三章节,源出处地址: 作者:城东 链接:https://www.zhihu.com/question/28641663/answer/110165221 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 当数据预处理完成后,我们需要从所有特征中选择有意义的特征,并将其输入机器学习算法和模型进行训练。 通常来说,从以下两个方面考虑来选择特征: (1)特征是否发散:如果一个特征不发散( 方差接近于0 ),也就是说样本在这个特征上基本上没有差异,对于样本的区分作用不大,此类特征可以过滤掉; (2)特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。 根据特征选择的形式又可以将特征选择方法分为3种: (1)Filter( 过滤法 ):按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。 (2)Wrapper( 包装法 ):根据目标函数(通常是预测效果评分,或cost function),每次选择(或排除)若干特征。 (3)Embedded( 嵌入法 ):先使用某些机器学习的算法和模型训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,只是通过训练来确定特征的优劣。 我们通常使用sklearn中的feature_selection库来进行特征选择。 (一

数据的特征选择与降维

你离开我真会死。 提交于 2019-12-02 23:02:53
特征选择: 特征选择的原因: 冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有负影响 特征选择是什么:   特征选择就是单纯地从提取到的 所有特征中选择部分特征 作为训练集特征,特征在 选择前和选择后可以改变值、也可以不改变值 ,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征 主要方法(三大武器): Filter(过滤式):VaianceThreshold Embedded(嵌入式):正则化、决策树 Wrapper(包裹式) 其它特征选择方法: 神经网络 sklearn特征选择API:    代码示例: 输出:[[2, 0 ], [1, 4], [1, 1]] 1 from sklearn.feature_selection import VarianceThreshold 2 3 4 # 数据降维,特征选择 5 def var(): 6 """方差特征选择,删除低方差的特征""" 7 v = VarianceThreshold(threshold=0.0) # 参数大小根据实际情况 8 data = v.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]]) 9 print(data) 10 11 12 if __name__ == '__main__': 13 var() 数据降维,PCA

《机器学习》西瓜书第十一章特征选择与稀疏学习

淺唱寂寞╮ 提交于 2019-12-02 04:53:32
第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 对当前学习任务有用的属性称为“相关特征 ”、没什么用的属性称为“无关特征”。从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。 特征选择是一个重要的“数据预处理”过程,获取数据之后通常先进行特征选择,此后在训练学习器。 为什么要进行特征选择?原因:①为了解决属性过多导致的维数灾难问题;②去除不相关的特征往往会降低学习任务的难度。- 如何从初始的特征集合中选取一个包含所有重要信息的特征子集?产生一个“候选子集”,评价其好坏,基于评价结果产生下一个候选子集,再对其进行评价,直到无法找到更好的候选子集为止。 第一个环节是“子集搜索”,给定特征集合,我们可以将每个特征看做一个候选子集,对这d个候选单特征子集进行评价,假定{ a_2 }最优,于是将其作为第一轮的选定集;然后在上一轮的选定集中加入一个特征,然后再进行评价。。。假定在第k+1轮时,最优的候选k+1特征子集不如上一轮的选定集,则停止生成候选子集,并将上一轮选定的k特征集合作为特征选择结果。这样逐渐增加相关特征的策略称为“前向搜索”,类似的,如果我们从完整的特征集合开始,每次尝试去掉一个无关特征,这样逐渐减少的特征策略称为“后向搜索”。还可以将前向搜索与后向搜索结合起来,每一轮逐渐增加选定相关特征、同时减少无关特征,这样的策略称为“双向”搜索。 第二个环节是