特征选择

项目 3: 创建用户分类

白昼怎懂夜的黑 提交于 2019-12-06 15:05:54
欢迎来到机器学习工程师纳米学位的第三个项目!在这个notebook文件中,有些模板代码已经提供给你,但你还需要实现更多的功能来完成这个项目。除非有明确要求,你无须修改任何已给出的代码。以 '练习' 开始的标题表示接下来的代码部分中有你必须要实现的功能。每一部分都会有详细的指导,需要实现的部分也会在注释中以 'TODO' 标出。请仔细阅读所有的提示! 除了实现代码外,你还 必须 回答一些与项目和你的实现有关的问题。每一个需要你回答的问题都会以 '问题 X' 为标题。请仔细阅读每个问题,并且在问题后的 '回答' 文字框中写出完整的答案。我们将根据你对问题的回答和撰写代码所实现的功能来对你提交的项目进行评分。 提示: Code 和 Markdown 区域可通过 Shift + Enter 快捷键运行。此外,Markdown可以通过双击进入编辑模式。 开始 在这个项目中,你将分析一个数据集的内在结构,这个数据集包含很多客户真对不同类型产品的年度采购额(用 金额 表示)。这个项目的任务之一是如何最好地描述一个批发商不同种类顾客之间的差异。这样做将能够使得批发商能够更好的组织他们的物流服务以满足每个客户的需求。 这个项目的数据集能够在 UCI机器学习信息库 中找到.因为这个项目的目的,分析将不会包括'Channel'和'Region'这两个特征——重点集中在6个记录的客户购买的产品类别上。

优达(Udacity)customer_segments

我与影子孤独终老i 提交于 2019-12-06 15:04:50
github地址 机器学习纳米学位 非监督学习 项目 3: 创建用户分类 欢迎来到机器学习工程师纳米学位的第三个项目!在这个notebook文件中,有些模板代码已经提供给你,但你还需要实现更多的功能来完成这个项目。除非有明确要求,你无须修改任何已给出的代码。以 ‘练习’ 开始的标题表示接下来的代码部分中有你必须要实现的功能。每一部分都会有详细的指导,需要实现的部分也会在注释中以 ‘TODO’ 标出。请仔细阅读所有的提示! 除了实现代码外,你还 必须 回答一些与项目和你的实现有关的问题。每一个需要你回答的问题都会以 ‘问题 X’ 为标题。请仔细阅读每个问题,并且在问题后的 ‘回答’ 文字框中写出完整的答案。我们将根据你对问题的回答和撰写代码所实现的功能来对你提交的项目进行评分。 提示:**Code 和 Markdown 区域可通过 **Shift + Enter 快捷键运行。此外,Markdown可以通过双击进入编辑模式。 开始 在这个项目中,你将分析一个数据集的内在结构,这个数据集包含很多客户真对不同类型产品的年度采购额(用 金额 表示)。这个项目的任务之一是如何最好地描述一个批发商不同种类顾客之间的差异。这样做将能够使得批发商能够更好的组织他们的物流服务以满足每个客户的需求。 这个项目的数据集能够在 UCI机器学习信息库 中找到.因为这个项目的目的,分析将不会包括’Channel

实时跟踪之TRACA

荒凉一梦 提交于 2019-12-06 10:36:44
背景: 目前,在实时跟踪领域存在着越来越多的先进方法,同时也极大地促进了该领域的发展。主要有两种不同的基于深度学习的跟踪方法:1、由在线跟踪器组成,这些跟踪器依赖网络连续的微调来学习目标的变化外观,精度虽高,但无法满足实时要求;2、基于相关滤波器的跟踪器组成,利用原始深度卷积特征,如Imagenet中包含的一般对象,存在高维度的问题,另外,相关滤波器计算时间随着特征维度的增加而增加,也不满足实时要求。 在2018年的CVPR会议上,出现了这样一篇文章:《Context-aware Deep Feature Compression for High-speed Visual Tracking》,引起了不小的反响。主要提出了一种新的基于上下文感知的相关滤波器的跟踪框架,以实现一个实时跟踪器。在计算速度和精度方面都有着不错的成绩。速度提升主要来源于深度特征压缩,利用多个expert auto-encoder的上下文感知方案;上下文是指根据不同层特征图对跟踪目标的粗略分类。在预训练阶段,每个类别训练一个expert auto-encoder。在跟踪阶段,指定一个最佳expert auto-encoder。为了实现高效跟踪性能,引入外部去噪处理和新的正交性损失项orthogonality loss,用于expert auto-encoder的预训练和微调。在保持当前最佳性能的同时

地理文本处理技术在高德的演进(下)

时间秒杀一切 提交于 2019-12-06 08:23:48
​在上篇里,我们介绍了地理文本处理技术在高德的整体演进,选取了几个通用query分析的点进行了介绍。下篇中,我们会选取几个地图搜索文本处理中特有的文本分析技术做出分析,包括城市分析,wherewhat分析,路径规划,并对未来做一下展望。 四、query分析技术演进 4.1 城市分析 在高德地图的检索场景下,从基础的地图数据索引、到在线召回、最终产品展示,均以市级别行政单位为基础粒度。一次完整的检索需求除了用户输入的query外,还会包含用户的图面城市以及用户位置城市两个城市信息。 通常,大多数的搜索意图都是在图面或者用户位置城市下,但是仍存在部分检索意图需要在其他城市中进行,准确的识别出用户请求的目标城市,是满足用户需求的第一步,也是极其重要的一步。 在query分析策略流程中,部分策略会在城市分析的多个结果下并发执行,所以在架构上,城市分析的结果需要做到少而精。同时用户位置城市,图面城市,异地城市三个城市的信息存在明显差异性,不论是先验输出置信度,还是用后验特征做选择,都存在特征不可比的问题。 在后验意图决策中,多个城市都有相关结果时,单一特征存在说服力不足的问题,如何结合先验置信度和后验的POI特征等多维度进行刻画,都是我们要考虑的问题。 原始的城市分析模块已经采用先验城市分析和后验城市选择的总体流程 但是原始的策略比较简陋,存在以下问题: 问题1:先验和后验两部分均基于规则

机器学习:数据清洗和特征选择

孤街醉人 提交于 2019-12-06 07:01:23
数据清洗和特征选择 数据清洗 清洗过程 数据预处理: 选择数据处理工具:数据库、Python相应的包; 查看数据的元数据及数据特征; 清理异常样本数据: 处理格式或者内容错误的数据; 处理逻辑错误数据:数据去重,去除/替换不合理的值,去除/重构不可靠的字段值; 处理不需要的数据:在进行该过程时,要注意备份原始数据; 处理关联性验证错误的数据:常应用于多数据源合并的过程中。 采样: 数据不均衡处理:上采样、下采样、SMOTE算法 样本的权重问题 数据不平衡 在实际应用中,数据的分布往往是不均匀的,会出现"长尾现象",即绝大多数的数据在一个范围/属于一个类别,而在另外一个范围或者类别中,只有很少一部分数据。此时直接采用机器学习效果不会很好,因此需要对数据进行转换操作。 长尾效应: 解决方案01 设置损失函数的权重, 使得少数类别数据判断错误的损失大于多数类别数据判断错误的损失 ,即:当我们的少数类别数据预测错误的时候,会产生一个比较大的损失值,从而导致模型参数往让少数类别数据预测准确的方向偏。 可通过设置sklearn中的class_weight参数来设置权重。 解决方案02 下采样/欠采样(under sampling): 从多数类中随机抽取样本从而减少多数类别样本数据 ,使数据达到平衡的方式。 集成下采样/欠采样:采用普通的下采样方式会导致信息丢失

Vufuria入门 1 图片识别和选择

霸气de小男生 提交于 2019-12-06 06:56:50
Vufutia中的图片识别功能,底层主要是识别特征点来实现的。特征点,即那些棱角分明的点。尖锐的而不是圆滑的、对比度大的而不是小的。 *** 步骤: 进入vofuria官网,登录,点击develop。 Add Target 上传需要识别的 右上 点下载。 下载完之后是一个package,拖到项目工程文件夹中导入。 之前一直没有搞成功。。。原来是我没有加入vuforia官网的key!!在AR camera的 里面 输入key 就可以了! 在层级里面右键创建一个AR camera、还有一个Image Target,表示要识别的目标图片。(这个要配置一下Database) 在Image Target上面右键,可以创建3D的东西,表示识别到这个图片以后应该显示什么东西。 来源: https://www.cnblogs.com/juzijuziju/p/11967351.html

决策树

…衆ロ難τιáo~ 提交于 2019-12-05 11:24:19
决策树的学习通常包含三个步骤:特征选择、树的生成、树的剪枝。决策树的生成采用启发式的方法,只考虑局部最优,相对地,决策树的剪枝则考虑全局最优 特征选择 信息增益 随机变量 \(X\) 的熵定义为: \[H(X)=-\sum \limits_{i}p_i\log p_i\] 熵越大,不确定性越大。从定义可验证 \[0 \leq H(X) \leq \log n\] 条件熵 \(H(Y|X)\) 定义为给定 \(X\) 时 \(Y\) 的条件概率分布的熵对 \(X\) 的数学期望: \[H(Y|X)=\sum \limits_{i=1}^n p(X=x_i) H(Y|X=x_i)=-\sum \limits_{i=1}^n\sum \limits_{j=1}^m p(X=x_i) p(Y=y_j)\log p(Y=y_j)\] 特征 \(A\) 对数据集 \(D\) 的信息增益: \[g(D,A)=H(D)-H(D|A)\] 一般地,熵 \(H(Y)\) 与条件熵 \(H(Y|X)\) 之差称为互信息。决策树学习中的信息增益等价于训练数据集中类与特征的互信息 信息增益比 以信息增益划分特征,容易偏向于选择取值较多的特征(如DNA),信息增益比定义为: \[g_R(D,A)=\frac{g(D,A)}{H_A(D)}\] 其中, \(H_A(D)=-\sum_{i=1}^n \dfrac

决策树算法

牧云@^-^@ 提交于 2019-12-05 09:25:17
一、目录 1、目录 2、决策树初步认知 3、决策树--ID3算法 4、决策树--C4.5算法 5、决策树--CART 6、CART算法的剪枝 7、决策树的优缺点 8、其他补充 二、决策树初步认知 决策树算法在机器学习中算是很经典的一个算法系列了。它先按照影响结果的主要因素进行排序,选取最主要的因素先进行分岔,依次循环下去。各种方法不同之处在于选择的因素判别方法不同。 它既可以作为分类算法,回归算法,同时也特别适合集成学习比如随机森林。作为一个码农经常会不停的敲if-else 。If-else其实就已经在用到决策树的思想了:关于递归的终止条件有三种情形: 1)当前节点包含的样本属于同一类,则无需划分,该节点作为叶子节点,该节点输出的类别为样本的类别 2)该节点包含的样本集合为空,不能划分 3)当前属性集为空,则无法划分,该节点作为叶子节点,该节点的输出类别为样本中数量多数的类别 本文就对 ID3, C4.5和CART 算法做一个详细的介绍。选择CART做重点介绍的原因是scikit-learn使用了优化版的CART算法作为其决策树算法的实现。 三、决策树 --ID3 算法 1970年代,一个叫昆兰的大牛找到了用信息论中的熵来度量决策树的决策选择过程,方法一出,它的简洁和高效就引起了轰动,昆兰把这个算法叫做ID3。 1.1 信息熵 首先,我们需要熟悉信息论中熵的概念。

高光谱遥感图像相关知识梳理大全

て烟熏妆下的殇ゞ 提交于 2019-12-05 07:35:02
前言 ​ 本资料整理了高光谱遥感图像概念定义、分析处理与分类识别的基本知识。第一部分介绍高光谱图像的一般性原理和知识,第二部分介绍了高光谱图像的噪声问题;第三部分介绍高光谱图像数据冗余问题以及数据降维解决冗余的方法;第四部分介绍高光谱图像的混合像元问题,对光谱解混做了一定介绍;第五部分和第六部分分别介绍了高光谱图像的监督分类和分监督分类的特点、流程和常用算法。 1.基本介绍 高光谱遥感(Hyperspectral remote sensing) 是将成像技术和光谱技术相结合的多维信息获取技术,同时探测目标的二维集合空间与一维光谱信息,获取高光谱分辨率的连续、窄波段图像数据。 高光谱图像与高分辨率图像、多光谱图像不同。 高光谱识别优势: 光谱分辨率高、波段众多,能够获取地物几乎连续的光谱特征曲线,并可以根据需要选择或提取特定波段来突出目标特征; 同一空间分辨率下,光谱覆盖范围更宽,能够探测到地物更多对电磁波的响应特征; 波段多,为波段之间的相互校正提供了便利; 定量化的连续光谱曲线数据为地物光谱机理模型引入图像分类提供了条件; 包含丰富的辐射、空间和光谱信息,是多种信息的综合载体。 高光谱在识别方面的困难: 数据量大,图像包含几十个到上百个波段,数据量是单波段遥感图像的几百倍;数据存在大量冗余,处理不当,反而会影响分类精度;

特征选择

眉间皱痕 提交于 2019-12-04 23:38:00
特征选择 特征选择方法是从原始特征数据集中选择子集,是一种包含的关系,没有更改原始的特征空间。主要是为了减少特征数量、降维,减少过拟合使模型泛化能力更强以及增强对特征与特征值之间的理解。 (1) Filter方法:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。卡方检验、信息增益、相关系数。 (2) Wrapper 方法: 将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个优化问题,这里有很多的优化算法可以解决这个问题。递归特征消除算法等。 (3) Embedded 方法: 在模型既定的情况下学习出对提高模型准确性最好的属性。 特征选择在战场中的应用 1 去掉取值变化小的特征 Removing features with low variance 这应该是最简单的特征选择方法了:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理