分类数据

数据库分类

妖精的绣舞 提交于 2019-12-25 13:38:03
http://www.jianshu.com/p/763f890579f9 做了几年开发,用过几种数据库,但是也就知道数据库的名字,其他的也没学到啥,开发过程中大多数也就是写写SQL文,增删改查之类的,现在发现我的知识很模糊,基础不牢靠,需要系统的学习一下。 1.1 数据库介绍 1.1.1什么是数据库 简单的说,数据库(database)就是一个存放数据的仓库,这个仓库是按照一定的数据结构(数据结构是指数据的组织形式或数据之间的联系)来组织、存储的,我们可以通过数据提供的多种方法来管理数据库里的数据。 1.2 数据库的种类 数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。而不同的数据库是按不同的 数据结构 来联系和组织的。而在当今的互联网中,最常见的数据库模型主要是两种,即关系型数据库和非关系型数据库。 1.2.1关系型数据库介绍 关系型数据库介绍 关系型数据库模型是把复杂的数据结构归结为简单的二元关系(即二维表格形式)。在关系型数据库中,对数据的操作几乎全部建立在一个或多个关系表格上,通过对这些关联的表格分类、合并、连接或选取等运算来实现数据库的管理。 关系型数据库诞生40多年了,从理论产生发展到现实产品,例如:Oracle和MySQL,Oracle在数据库领域上升到霸主地位,形成每年高达数百亿美元的庞大产业市场。 1.2.2非关系型数据库介绍 NoSQL

处理分类问题常用算法(二)-----算法岗面试题

笑着哭i 提交于 2019-12-25 12:56:51
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数, 为模型对样本i的预测结果, 为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。 ● 生成模型和判别模型基本形式,有哪些? 参考回答: 生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场 判别式:LR,SVM,神经网络,CRF,Boosting 详情:支持向量机 ● 核函数的种类和应用场景。 参考回答: 线性核、多项式核、高斯核。 特征维数高选择线性核 样本数量可观、特征少选择高斯核(非线性核) 样本数量非常多选择线性核(避免造成庞大的计算量) 详情:支持向量机 ● 分类算法列一下有多少种?应用场景。 参考回答: 单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost。 ●

机器学习:集成学习:随机森林.GBDT

一曲冷凌霜 提交于 2019-12-25 00:45:05
集成学习(Ensemble Learning) 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器.弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate < 0.5); 集成算法的成功在于保证弱分类器的多样性(Diversity).而且集成不稳定的算法也能够得到一个比较明显的性能提升 常见的集成学习思想有: Bagging Boosting Stacking Why need Ensemble Learning? 1. 弱分类器间存在一定的差异性,这会导致分类的边界不同,也就是说可能存在错误。那么将多个弱分类器合并后,就可以得到更加合理的边界,减少整体的错误率,实现更好的效果; 2. 对于数据集过大或者过小,可以分别进行划分和有放回的操作产生不同的数据子集,然后使用数据子集训练不同的分类器,最终再合并成为一个大的分类器; 3. 如果数据的划分边界过于复杂,使用线性模型很难描述情况,那么可以训练多个模型,然后再进行模型的融合; 4. 对于多个异构的特征集的时候,很难进行融合,那么可以考虑每个数据集构建一个分类模型,然后将多个模型融合。 Bagging方法 Bagging方法又叫做自举汇聚法(Bootstrap Aggregating),思想是:在原始数据集上通过有放回的抽样的方式

SQL语言分类

房东的猫 提交于 2019-12-24 01:07:37
四大类: 1. 数据查询语言DQL 数据查询语言DQL基本结构是由SELECT子句,FROM子句,WHERE 子句组成的查询块: SELECT <字段名表> FROM <表或视图名> WHERE <查询条件> 2 .数据操纵语言DML 数据操纵语言DML主要有三种形式: 1) 插入:INSERT 2) 更新:UPDATE 3) 删除:DELETE 3. 数据定义语言DDL 数据定义语言DDL用来创建数据库中的各种对象-----表、视图、 索引、同义词、聚簇等如: CREATE TABLE/VIEW/INDEX/SYN/CLUSTER 表 视图 索引 同义词 簇 DDL操作是隐性提交的!不能rollback 4. 数据控制语言DCL 数据控制语言DCL用来授予或回收访问数据库的某种特权,并控制 数据库操纵事务发生的时间及效果,对数据库实行监视等。如: 1) GRANT:授权。 2) ROLLBACK [WORK] TO [SAVEPOINT]:回退到某一点。 回滚---ROLLBACK 回滚命令使数据库状态回到上次最后提交的状态。其格式为: SQL>ROLLBACK; 3) COMMIT [WORK]:提交。 来源: https://www.cnblogs.com/gaara-zhang/p/9989193.html

GIS入门进阶之016

混江龙づ霸主 提交于 2019-12-23 18:11:17
一、引言 栅格数据空间分析(What) 栅格数据结构简单、直观,点、线、面等地理实体采用同样的方式存储,便于快速执行叠加分析和各种空间统计分析。基于栅格数据的空间分析在ArcGIS 中占有重要地位,空间建模的基本过程也是通过栅格数据的空间分析进行的。 二、栅格数据的基础知识 · 栅格数据是由按行和列(或格网)组织的单元(或像素)矩阵组成的,每个单元都包含一个信息值。栅格数据一般分为两类:专题数据和图像数据。 专题数据的栅格值 表示某种测量值或某个特定现象的分类,如高程(值)、污染浓度或人口(数量)等; 图像数据的栅格值 表示诸如卫星图像或照片等的反射或发射的光或能量。 ArcGIS中的空间分析模块主要是针对专题栅格数据的。 1、栅格数据的组成 1.1 单元:单元是特定区域的方块,所有单元大小相投。单元以行和列的形式排列,组成了一个笛卡尔矩阵,每个单元有唯一的行列地址。 栅格数据表示内容的详细程度取决于栅格单元的大小。如果过大,则分析结果精度降低;如果过小,则会产生大量的冗余数据,并且计算速度降低。因此,选择合适的单元大小,对栅格数据的空间分析非常重要。 1.2 值:每个单元被分配一个特定的值以标识或描述单元归属的类或组,或所描述现象的大小或数量。空间分析模块既支持整型值,也支持浮点值。一般而言,分类数据用整型值表示最佳,连续表面则用浮点型值表示。 1.3 分区和区域

【文智背后的奥秘】系列篇——自动文本分类

社会主义新天地 提交于 2019-12-22 19:19:02
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/132 来源:腾云阁 https://www.qcloud.com/community 一.自动文本分类 概述文本分类,顾名思义,就是将一篇文档归为已知类别中的一类或者几个类,为了实现自动分类的目标,通常有以下几个步骤: 构建分类类别体系 获取带有类别标签的训练数据 训练数据的文本表达及特征选择 分类器的选择与训练 分类应用数据 给定一篇待分类的文档,若对其进行自动分类,通常需要把文档表达成机器可以处理的数据类型。目前常用的文本表达方式有向量空间模型(VSM),即把文档映射为一个特征向量 其中ti为文档分词后的词条项,w(ti)为相应词条项的权重。 我们的自动文本分类系统,为用户提供自动文本分类服务,平台已对文本分类的模型算法进行了封装,用户只需提供待分类的文本数据,而不必关注具体的实现,通过平台就能得到提供文本的所属类别。目前平台能识别类别囊括了软件、影视、音乐、健康养生、财经、广告推广、犯罪、政治等40多个类别,且系统算法支持快速迭代更新已有类别及增加新类别。 二.自动文本分类系统 1.系统主要框架 目前我们的自动分类系统框架如图1.1所示。系统主要分为三大块

《数据挖掘概念与技术》学习笔记-第一章

和自甴很熟 提交于 2019-12-20 23:11:34
1.1 什么是数据挖掘? 数据挖掘是从大量数据中发现有趣模式和知识的过程,它既不是一种广告宣传,也不是数据库、统计学、机器学习或模式识别发展而来的技术的简单转换或应用。 机器学习的不断发展,为数据挖掘提供了很好的数据分析技术基础,而统计学则帮助人们更好的理解数据的全貌,模式识别也在数据挖掘的过程中被广泛应用,因此,数据挖掘实际上是多种数据分析技术共同发展才得以发展壮大的,并且与这些技术相辅相成,互相促进。 如果把数据挖掘看作知识发现过程,则这一过程涉及以下步骤: 1.数据清理:消除噪声和删除不一致数据 2.数据集成:多种数据源可以组合在一起 3.数据选择:从数据库中提取与分析人物相关的数据 4.数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式 5.数据挖掘:基本步骤,使用智能方法提取数据模式 6.模式估计:根据某种兴趣度度量,识别代表知识的真正有趣的模式 7.知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识 1.2数据仓库与数据库有什么异同? 数据库与数据仓库的主要区别在于数据集的大小和对数据的处理方式。 数据库处理数据的主要方法是操作型处理,即联机事务处理OLTP(On-Line Transaction Processing),也可以称为面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询和修改。用户较为关心操作的响应时间

计算机基础(2)计算机分类

点点圈 提交于 2019-12-20 17:02:22
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 超级计算机 功能最强、运算速度最快、存储容量最大的计算机 多用于国家高科技领域和尖端技术研究 标记他们运算速度的单位是 TFlop/s 大型计算机 又称大型机、大型主机、主机等 具有高性能,可处理大量数据与复杂的运算 在大型机市场领域,IBM 占据着很大的份额 代表了高维护费用的存储系统 不够灵活,伸缩性弱 迷你计算机(服务器) 也称为小型机,普通服务器 不需要特殊的空调场所 具备不错的算力,可以完成较复杂的运算 工作站 高端的通用微型计算机,提供比个人计算机更强大的性能 类似于普通台式电脑,体积较大,但性能强劲 微型计算机 又称为个人计算机,是最普通的一类计算机 麻雀虽小、五脏俱全 计算机体系结构 冯诺伊曼体系 将程序指令和数据一起存储的计算机设计概念结构 结构 必须有一个存储器 必须有一个控制器 必须有一个运算器 必须有输入设备 必须有输出设备 特点 能够把需要的程序和数据送至计算机中 能够长期记忆程序、数据、中间结果及最终运算结果的能力 能够具备算术、逻辑运算和数据传送等数据加工处理的能力 能够按照要求将处理结果输出给用户 瓶颈 CPU 和存储器速率之间的问题无法调和 CPU 经常空转等待数据传输 现代计算机的结构 现代计算机在冯诺依曼体系结构基础上进行修改 解决 CPU 与存储设备之间的性能差异问题

机器学习漫游(1) 基本设定

两盒软妹~` 提交于 2019-12-20 08:29:34
  最近的十几年机器学习很是火热,尤其是其中的一个分支深度学习在工业界取得很好应用,吸引了很多眼球。不过从其历程来看,机器学习的历史并不短暂~从早期的感知机到八十年代火热的神经网络,再到九十年代被提出的经典算法集成学习和支持向量机;而最近的十年算得上是机器学习发展的黄金年代,软、硬件计算条件大幅提高,尤其是现在数据量的爆发式增长让机器拥有充分“学习”的资本,另一方面现在开源项目越来越多,即便一些算法的实现很复杂,我等小白只需要调几个接口也能完成对数据的处理;在这个年代里,不同的人充斥着不同的野心,计算机科学家仍在探索人工智能的奥义,资本、媒体都在热炒机器学习概念,大数据、AI俨然成为宠儿,各行程序员也在茶余饭后有了谈资。盛名之下,其实难副,机器学习、人工智能的发展还处在浅层,特别是深度学习这些被媒体过度炒作的产物,从计算智能到感知智能再到认知智能,前面的路依然很远。长路漫漫,不管怎样,越来越多的人投入这个行业确实对行业本身有很大的发展,特别是可以看出,国内外很多高校的专家学者已经把研究阵地转向工业,不仅仅是因为报酬丰厚,更因为工业界提供了现实场景更丰富的数据,而这些数据让算法拥有很好的施展空间。   还记得16年在亚马逊买了一本南大周志华老师的<<机器学习>>,到手之后真的超出了预期,书上面的算法介绍的比较系统,每一章节提到了某个领域的经典算法,后面给出的附录也适合非科班同学看懂

机器学习---K最近邻(k-Nearest Neighbour,KNN)分类算法

早过忘川 提交于 2019-12-19 07:00:08
K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN)    K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。 2.算法原理       如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说,现在, 我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红色小三角形),下面,我们就要解决这个问题:给这个绿色的圆分类。   我们常说,物以类聚,人以群分,判别一个人是一个什么样品质特征的人,常常可以从他/她身边的朋友入手,所谓观其友,而识其人。我们不是要判别上图中那个绿色的圆是属于哪一类数据么,好说,从它的邻居下手。但一次性看多少个邻居呢?从上图中,你还能看到: 如果K=3