样本空间

数据处理方法归纳

非 Y 不嫁゛ 提交于 2019-12-01 18:52:24
https://blog.csdn.net/qq_19528953/article/details/78785818 一 介绍 对于数据处理来说,整个处理的流程如下图所示: 数据预处理——通常包括特征选择、维规约、规范化等方法。 数据挖掘——这部分的方法和技术非常多,在处理时主要根据自己的目的来选择对应的方法最为恰当。 数据后处理——主要包括模式过滤、可视化等,目的是为了让数据挖掘的结果利于使用和观察。 为了让大家有一个清晰的框架,后面内容的思维导图如下展示: 二 了解数据 数据处理最关键的地方在于解决问题,并不是使用的方法越复杂越好。无论方法多么简单,只要解决问题就是好的方法 。为了解决数据处理的相关问题, 第一步是观察数据,了解数据相关的概念 ,然后对数据进行一些处理。这样对后面具体使用哪个方法来进行分析非常有用。 2.1数据预处理 数据预处理对于后续使用数据挖掘或者机器学习技术非常重要。在面临大数据的当下,数据的维度通常非常的多,因此 数据预处理的一个主要任务就是降低数据维度 。 2.1.1维归约 所谓维归约,就是要减少数据的特征数目,摒弃掉不重要的特征,尽量只用少数的关键特征来描述数据。人们总是希望看到的现象主要是由少数的关键特征造成的,找到这些关键特征也是数据分析的目的。维归约中主要方法很多,下面介绍几个: (1)主成分分析 主成分分析是一种统计方法

攀登传统机器学习的珠峰-SVM (中)

雨燕双飞 提交于 2019-11-30 12:21:36
关于软间隔SVM和非线性SVM,在学习过程中,估计有很多入门的同学会好奇软间隔和硬间隔的区别有没有更合理的解释?软间隔中引入的松弛变量到底是什么?软间隔的优化函数和硬间隔的优化函数化简之后,为什么长得这么类似?有没有更形象的方式来划分软间隔中的支持向量,噪声点和误分类的点?软间隔SVM的代价函数,硬间隔SVM的代价函数和合页损失函数是一致的吗?以及核函数是个什么玩意?核函数的优点到底怎么解释? 下面我将用EM算法的思想去解释软间隔和硬间隔的区别,并用通俗易懂的语言解释松弛变量的几何含义,以及系数C对支持变量的影响。用一张图解释软间隔是怎样区分支持向量,噪声点和误分类的点。对软间隔SVM的代价函数,硬间隔SVM的代价函数和合页损失函数的一致性进行了推导。 之后对特征空间和核函数的核心idea进行了阐述,并分析了核函数的形式来历和那句让人捉摸不透的优点。最后简要介绍了一下几个重要的核函数。 由于文章当中包含很多自己理解的部分,如有不当之处,请多多指正!!! 线性分类SVM面临的问题 在上次课中,我们对线性可分SVM的算法的原理和流程进行了总结,如下图所示,为线性可分的数据集,我们可以采用线性可分的支持向量机,也称为硬间隔支持向量机。 当数据集中参杂了一些噪声,如下图所示,由于参杂了一个红色的噪声点,导致模型学习到的决策边界由下图中的粗虚线移动到了粗实线。 Q1

K-NN算法概述

梦想与她 提交于 2019-11-30 10:28:59
一、KNN算法(k-NearestNeighbor),k临近值算法:在给出一个数据点以后,判断它和已有数据点之间的距离,取k个距离最近的点,这些点中存在的那一类点最多就讲这个新的数据点归位那一类。 • 容易存在的问题:   1.、k 值过小,容易出现过 拟合问题 ,结果就是在训练集上准确度很高,但是在测试集上就很低。   2、特征的比重失衡。在计算样本点之间的距离时,如果不同的维度存在数量级差异,就会导致某些特征所起到的作用(对距离的影响)过大或过小。所以要进行归一化处理来避免这种问题的出现。 • 距离的度量:欧式距离、曼哈顿距离、取最大值等等 二、k-d(K-demension tree)树:将空间划分为特定的几个部分,在特定的部分内进行相关搜索。 来源: https://www.cnblogs.com/yyf2019/p/11578878.html

路径规划学习入门

半世苍凉 提交于 2019-11-29 02:02:18
运动规划简介 当虚拟人开始一次漫游时,首先全局规划器根据已有的长期信息进行全局静态规划,确定虚拟人应该经过的最优化路线。然后全局规划器控制执行系统按照该路径运动。在运动过程中,感知系统会持续对周围环境进行感知。当发现动态的物体或未知障碍时,局部规划器根据这些感知到的局部信息,确定短期內的运动。当避障行为的优先级高于沿原路径前进时,局部规划器就能够通过竞争获得执行系统的控制权,使得虚拟人按照局部规划结果运动。完成对当前感知障碍的规避行为后,全局规划器再次取得执行系统的控制权,使得虚拟人重新回到全局规划路径上,继续向目标点运动。 参考 Dijkstra和A*算法做的效果演示动画 A*算法加入了启发函数,用于引导其搜索方向,A*算法会比Dijkstra算法规划速度快不少 最佳优先搜索(BFS)算法  BFS按照类似的流程运行,不同的是它能够评估(称为启发式的)任意结点到目标点的代价。与选择离初始结点最近的结点不同的是,它选择离目标最近的结点。BFS不能保证找到一条最短路径。然而,它比Dijkstra算法快的多,因为它用了一个启发式函数(heuristic function)快速地导向目标结点。例如,如果目标位于出发点的南方,BFS将趋向于导向南方的路径。在下面的图中,越黄的结点代表越高的启发式值(移动到目标的代价高),而越黑的结点代表越低的启发式值(移动到目标的代价低)

泛函四大定理:

荒凉一梦 提交于 2019-11-28 16:29:32
开映射定理和闭图像定理及其应用 - dhchen 的文章 - 知乎 https://zhuanlan.zhihu.com/p/28093420 泛函分析随记(一)Hahn-Banach定理 - 陆艺的文章 - 知乎 https://zhuanlan.zhihu.com/p/53079862 hahn banach延拓定理里的一小步? - 知乎 https://www.zhihu.com/question/263942231 小完结:Hahn-Banach定理及其应用 - dhchen的文章 - 知乎 https://zhuanlan.zhihu.com/p/28496285 泛函分析在经济领域有什么应用吗? - 知乎 https://www.zhihu.com/question/31913447 泛函分析在经济学中的作用有以下几点: 1.价格体系本身是商品空间上的一个线性泛函,利用Hahn-Banach定理我们可以非常容易地证明福利经济学第二定理。 2.要想 严格 地掌握最优控制,需要泛函分析的基础。只是单纯应用的话倒不必要,但是我还是强烈建议经济学的博士生应该掌握Banach空间的微分学,这不光是变分法的问题,而且涉及到经济学很多常用的非线性动力学问题。 对于随机最优控制问题,我们一般有随机Pontryagin最大值原理和Hamilton-Jacobi

(转载)图像检索:基于内容的图像检索技术

Deadly 提交于 2019-11-28 12:28:21
图像检索:基于内容的图像检索技术 背景与意义 在Web2.0时代,尤其是随着Flickr、Facebook等社交网站的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如, Facebook注册用户超过10亿,每月上传超过10亿的图片;Flickr图片社交网站2015年用户上传图片数目达 7.28亿 ,平均每天用户上传约200万的图片;中国最大的电子商务系统淘宝网的后端系统上保存着286亿多张图片。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。基于内容的图像检索方法充分发挥了计算机长于处理重复任务的优势,将人们从需要耗费大量人力、物力和财力的人工标注中解放出来。经过十来来的发展,基于内容的图像检索技术已广泛应用于搜索引擎、电子商务、医学、纺织业、皮革业等生活的方方面面。 图像检索按描述图像内容方式的不同可以分为两类,一类是基于文本的图像检索(TBIR, Text Based Image Retrieval),另一类是基于内容的图像检索(CBIR, Content Based Image Retrieval)。 基于文本的图像检索方法始于上世纪70年代,它利用文本标注的方式对图像中的内容进行描述,从而为每幅图像形成描述这幅图像内容的关键词,比如图像中的物体、场景等

传统推荐算法(五)LR+GBDT(1)剑指GBDT

大城市里の小女人 提交于 2019-11-28 05:55:27
文章目录 写在前面 1. GBM 1.1 从参数空间到函数空间: 1.2 从非参估计到参数估计 1.3 泰勒展开近似 2. GBM的基学习器 2.1 基学习器选择 2.2 CART回归树 3. GBDT之回归 4. GBDT之分类 4.1 二类逻辑回归和分类 4.2 多类逻辑回归和分类 5. 反思总结 5.1 样本权重调整 5.2 GBDT优缺点 6. GBDT资料推荐 参考 公众号 写在前面 学习GBDT的时候,被网上的几篇文章搞晕了,就去看了下GBDT的论文,整理了一些思路,结合参考中的一些内容,整理了这篇文章。本文将循序渐进,从GB,DT讲到GBDT,细致分析下GBDT的原理。本人才疏学浅,有些地方可能理解得不对,欢迎指出错误。学习过程中,薛大佬的这篇文章给了我很多启发:http://xtf615.com/paper/GBM.html。他本人也很热心地帮我解答疑问,在此特别感谢。 机器学习中的 Boosting 算法族有两大类,一类是 weight_boosting,其中以 adaboost 为主要代表,另一类是 gradient_boosting,其中以 gbdt 为主要代表[1]。GBDT是机器学习竞赛中常用的一种算法,据统计,Kaggle比赛中50%以上的冠军方案都是基于GBDT算法[2]。有人称之为机器学习TOP3算法。 1999年,Jerome Harold

Fisher Vector费舍尔向量and FIsher Kernel费舍尔核

喜夏-厌秋 提交于 2019-11-27 08:10:52
之前想了解Fisher Vector(以下简称FV)和 Fisher Kernel(以下简称FK) ,花了很长时间查论文看博客,总算明白了点皮毛,为了以后自己能够记得起来,决定用自己能懂的话码出来。 1、FV的优点 FV和 广泛应用于图像分类、行为识别领域。为什么会广泛应用?肯定是因为FV有别的算法不具备的优点。什么有点呢?下面教科书一般的说明如下: 模式识别方法可以分为生成式方法和判别式方法。生成式注重对类条件概率密度函数的建模,主要反映同类数据之间的相似度,如GMM ;判别式聚焦于直接分类,反映异类数据之间的差异,如SVM 。 二者的优势:1,生成式方法可以处理长度不一的输入数据,2,判别式方法不能处理长度不一的数据但是分类效果较好。 而FV则主要结合两者优势,将生成式模型用于判别式分类器中,这就是FV的优势,那么FV如何拥有这样的优势呢?分析如下: 2、FV的推导 算法的推导过程都很繁复,但是FV的推导真心不算难,仔细学习下,一两天内可以看的很明白,不过知其然未必知其所以然,至于FV是这样推导的没错,但为什么这么推导,现在为止我也没有清晰的认识,反正就是先学着吧。 【样本的处理】 FV本质上是用似然函数的梯度向量来表达一幅图像。这个梯度向量的物理意义就是数据拟合中对参数调优的过程。似然函数是哪里来的呢? (似然函数: 一种关于统计模型参数的函数。给定输出x时