特征选择

决策树

余生颓废 提交于 2019-12-18 10:47:07
   决策树 是一种基本的分类与回归方法。决策树模型呈树形结构,可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤: 特征选择 、 决策树的生成 和 决策树的修剪 。    定义(决策树): 决策树由结点(node)和 有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶节点(leaf node)。内部结点表示一个特征或属性,叶节点表示一个类。   决策树的路径或其对应的if-then规则集合具有一个重要的性质:互斥并且完备。这就是说,每一个实例都被一条路径或一条规则所覆盖,而且只被一条路径或一条规则所覆盖。   决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。决策树学习算法包括 特征选择 、 决策树生成 与 决策树的剪枝 过程。决策树学习常用的算法有 ID3 、 C4.5 与 CART 。    特征选择    通常特征选择的准则是 信息增益 或 信息增益比 。    特征增益   在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量

特征工程

眉间皱痕 提交于 2019-12-17 08:35:56
上周参加了学校的数据挖掘竞赛,总的来说,在还需要人工干预的机器学习相关的任务中,主要解决两个问题:(1)如何将原始的数据处理成合格的数据输入(2)如何获得输入数据中的规律。第一个问题的解决方案是:特征工程。第二个问题的解决办法是:机器学习。 相对机器学习的算法而言,特征工程的工作看起来比较low,但是特征工程在机器学习中非常重要。特征工程,是机器学习系列任务中最耗时、最繁重、最无聊却又是最不可或缺的一部分。这些工作先行者们已经总结的很好,作为站在巨人的肩膀上的后来者,对他们的工作表示敬意。主要内容转载自 http://www.cnblogs.com/jasonfreak/p/5448385.html 这篇文章在该文章的基础上做了添加或修改,仍在更新中 特征工程 1、特征工程是什么: 工业界流传者这么一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 那么,到底什么是特征工程?我们知道,数据是信息的载体,但是原始的数据包含了大量的噪声,信息的表达也不够简练。因此, 特征工程的目的 ,是通过一系列的工程活动,将这些信息 使用更高效的编码方式 (特征)表示。使用特征表示的信息,信息损失较少,原始数据中包含的规律依然保留。此外,新的编码方式还需要 尽量减少原始数据中的不确定因素 (白噪声、异常数据、数据缺失…等等) 的影响 。 经过前人的总结

8.3 特征抽取、转化和选择

一个人想着一个人 提交于 2019-12-16 00:27:37
一、特征抽取 1.TF-IDF “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。词语由t表示,文档由d表示,语料库由D表示。 词频TF(t,d) 是词语t在文档d中出现的次数 文件频率DF(t,D) 是包含词语的文档的个数 TF-IDF就是在数值化文档信息,衡量词语能提供多少信息以区分文档 。其定义如下: 在Spark ML库中,TF-IDF被分成两部分: TF (+hashing)【转换器】: HashingTF 是一个Transformer,在文本处理中,接收词条的集合然后把这些集合转化成固定长度的特征向量。这个算法在哈希的同时会统计各个词条的词频。 IDF【评估器】: IDF是一个Estimator,在一个数据集上应用它的fit()方法,产生一个IDFModel。 该IDFModel 接收特征向量(由HashingTF产生),然后计算每一个词在文档中出现的频次。IDF会减少那些在语料库中出现频率较高的词的权重。 过程描述: 在下面的代码段中,我们以一组句子开始 首先使用分解器Tokenizer把句子划分为单个词语 对每一个句子(词袋),使用HashingTF将句子转换为特征向量 最后使用IDF重新调整特征向量(这种转换通常可以提高使用文本特征的性能) (1)导入TF-IDF所需要的包:

机器学习拐弯点

穿精又带淫゛_ 提交于 2019-12-15 20:01:49
1.线性回归:满足齐次,满足可加性 2.多项式线性回归:变量代替法换成一元 3.验证集误差不能作为测试集误差的原因? 答:验证集选模型时,人为选最高,而测试集是自然的选择过程,为了方便,做一次测试集误差就代表了多次,效果都差不多 4.不对称类数据:坏的数据少,好的数据多,为防止模型测试效果不太好,所以用测试了多少个病人,还有测的准确率,双重标准,使得结果可信度一定可信 数据对称:好的和坏的差不多1:1;在这种情况下测试,想要把把都对,那是真本事 数据局限性:对于想要测试的目标结果可能性很多时,不能够收集各种目标数据集,只能从反面做模型, 模型只能测试数据集有的可能性 大规模数据:越多拟合的越好,限制点越多 5.推荐系统 在某段时间内使用数据,做出模型,每个时间段做个,具有时效性 6.支持向量机:核函数:建立新特征? 为什么合适,没明白 7.图像文字识别 流程。。。滑动窗口做特征,做切割,特征的选择具有功能性。 8.特征 特征的选择具有功能性,特征的选择和输出具体相关性 9... 来源: CSDN 作者: chris__tina 链接: https://blog.csdn.net/chanleoo/article/details/89076348

机器学习应用开发典型步骤

白昼怎懂夜的黑 提交于 2019-12-15 07:39:10
一、数据清洗 统一同类数据的单位,去掉重复数据及噪声数据。使得数据具备结构化特征,方便作为机器学习算法的输入。 二、特征选择 从所有的特征值中,逐个分析选择合适的特征集合作为输入。 方法:1、人工选择;2、PCA算法 三、模型选择 根据问题领域、数据量大小、训练时长、模型准确度等多方面因素决定模型的选择。 四、模型训练和测试 将数据集分为训练集、测试集、验证集(交叉验证集)来进行模型训练。 五、模型性能评估和优化 考虑训练时长、数据集是否足够多是否全面、模型准确性、是否能满足应用场景的性能要求,不能则将其优化或选择其他模型。 六、模型使用 来源: CSDN 作者: 嗯_雅娴 链接: https://blog.csdn.net/silvia__y/article/details/103488018

特征选择之经典三刀

a 夏天 提交于 2019-12-11 08:52:40
本文由作者授权发布,未经许可,请勿转载。 作者:侯江畔,网易杭州研究院算法工程师 数据决定了模型的上限,而算法只是去逼近这个上限。如何从海量特征中科学提取关键特征呢? 特征选择(Feature Selection)和特征提取(Feature Extraction)是特征工程(Feature Engineering)的两个重要子内容。其中特征提取是指从数据中找到可以表征目的的属性,而特征选择是从候选特征中选出“优秀”的特征。通过特征选择可以达到降维、提升模型效果、提升模型性能等效果,深度学习目前这么火热,其中一个重要原因是其减少了特征选择的工作,但对于机器学习,特征选择仍然是其应用中很重要的一步。 一、为什么要特征选择? 1.1特征数量与分类器性能的关系 一般来说,进入模型的特征数量与模型的效果之间满足以下曲线,在某个位置达到最优。过多或过少都会使分类器的效果发生严重的下降。 1.2特征不足的影响 当特征不足时,极易发生数据重叠,这种情况下任何分类器都会失效。如下图所示,仅依赖x1或x2都是无法区分这两类数据的。 1.3特征冗余的影响 增加特征可以理解为向高维空间映射,当这个“维度”过高时,容易造成同类数据在空间中的距离边远,变稀疏,这也易使得很多分类算法失效。如下图所示,仅依赖x轴本可划分特征,但y轴的引入使得同一类别不再聚集。 1.4特征选择的难点问题 首先我们已经明确

基于超图的多模态特征选择算法及其应用

ぃ、小莉子 提交于 2019-12-10 09:21:06
一、题目:基于超图的多模态特征选择算法及其应用 二、论文概述:利用传统机器学习方法,提出一种多模态特征选择算法,将每组模态当作一组任务,首先利用L2,1范数进行特征选择保证不同模态相同脑区的特征被选中,然后通过嵌入超图技术刻画样本与样本之间的高阶信息,最后利用多核支持向量机对选择后的特征选择进行融合分类,并以ACC、SEN、SPE作为评价指标在ADNI-202数据集上进行验证并与传统方法进行对比来证明提出的基于超图的多模态特征选择算法的有效性。 三、创新点:在传统的多任务特征学习基础上嵌入超图技术,可以刻画样本间的高阶关系。 四、主要公式 1、多任务特征选特目标公式: (1)L2,1范数可以看成矩阵每一行的L2范数之和。L2,1范数将不同模态的同一特征的权重联合起来,使得一部分共同特征能够被联合选择出来。(2)多任务特征选择的结果是使权重矩阵多行为0. 2、利用KNN嵌入超边:把每个顶点看作是一个中心,计算中心点与其他顶点的距离,再把中心点与距离其最近的k个顶点连接起来,构成了一组超边,给定N个样本,则可构造出N个超边。 3、对每个模态的样本都构建一个超图,保留每一个模态的高阶结构信息。在多任务特征选择中加入超图的正则化项即可得到基于超图的多模态特征选择算法的目标公式: 利用超图的拉普拉斯矩阵保留同一模态样本之间的高阶结构关系。 五、优化算法 (1)采用APG算法(加速近端梯度算法

地理文本处理技术在高德的演进(下)

随声附和 提交于 2019-12-08 13:08:37
在 【上篇】 里,我们介绍了地理文本处理技术在高德的整体演进,选取了几个通用query分析的点进行了介绍。下篇中,我们会选取几个地图搜索文本处理中特有的文本分析技术做出分析,包括城市分析,wherewhat分析,路径规划,并对未来做一下展望。 四、query分析技术演进 4.1 城市分析 在高德地图的检索场景下,从基础的地图数据索引、到在线召回、最终产品展示,均以市级别行政单位为基础粒度。一次完整的检索需求除了用户输入的query外,还会包含用户的图面城市以及用户位置城市两个城市信息。 通常,大多数的搜索意图都是在图面或者用户位置城市下,但是仍存在部分检索意图需要在其他城市中进行,准确的识别出用户请求的目标城市,是满足用户需求的第一步,也是极其重要的一步。 在query分析策略流程中,部分策略会在城市分析的多个结果下并发执行,所以在架构上,城市分析的结果需要做到少而精。同时用户位置城市,图面城市,异地城市三个城市的信息存在明显差异性,不论是先验输出置信度,还是用后验特征做选择,都存在特征不可比的问题。 在后验意图决策中,多个城市都有相关结果时,单一特征存在说服力不足的问题,如何结合先验置信度和后验的POI特征等多维度进行刻画,都是我们要考虑的问题。 原始的城市分析模块已经采用先验城市分析和后验城市选择的总体流程 但是原始的策略比较简陋,存在以下问题: 问题1

机器学习中的特征——特征选择的方法以及注意点(转)

旧巷老猫 提交于 2019-12-07 19:43:08
转自 https://blog.csdn.net/google19890102/article/details/40019271 一、特征选择和降维 1、相同点和不同点 特征选择和降维有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:降维的方法主要是通过属性间的关系,如组合不同的属性得新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。 2、降维的主要方法 Principal Component Analysis(主成分分析),详细见“ 简单易学的机器学习算法——主成分分析(PCA) ” Singular Value Decomposition(奇异值分解),详细见“ 简单易学的机器学习算法——SVD奇异值分解 ” Sammon's Mapping(Sammon映射) 二、特征选择的目标 引用自吴军《数学之美》上的一句话:一个正确的数学模型应当在形式上是简单的。构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质,当然此时的挑选出的特征就应该能够对问题有更好的解释,所以特征选择的目标大致如下: 提高预测的准确性 构造更快,消耗更低的预测模型 能够对模型有更好的理解和解释 三、特征选择的方法

PyramidBox:A Context-assisted Single Shot Face Detector(论文阅读笔记)

余生长醉 提交于 2019-12-06 21:36:09
论文:PyramidBox: A Context-assisted Single Shot Face Detector 原文链接: https://arxiv.org/abs/1803.07737?context=cs PyramidBox是2018年的人脸检测冠军方案 先上一个效果图,该图据报道有1000人,PyramidBox人脸检测器检测到了880张人脸,图片右侧的颜色条表示检测置信度,可以发现只有少数boxes(人脸)的置信度比较低。颜色越浅,置信度越低。 摘要 人脸检测的一个 挑战 是检测不受控制条件下 小的,模糊的,和部分遮挡的 人脸。本文提出了一个上下文辅助的single shot人脸检测器——PyramidBox,来解决人脸检测的难题。我们在下面三个部分 改进了上下文信息的利用 。1)设计了一种新的上下文anchor来监督由半监督方法学习到的高层上下文特征,我们把它叫做 PyramidAnchors 。2)提出了一种低层特征金字塔网络( LFPN )整合高层的语义信息和低层的面部特征,他可以使PyramidBox以single shot的方式预测所有尺度的人脸。3)我们引入了一个 上下文敏感结构 来增加预测网络的容量,以提高输出的最终准确性。PyramidBox在两个人脸检测基准数据集,FDDB和WIDER FACE上取得了state of the art的结果。