数据挖掘技术

从机器学习谈起

前提是你 提交于 2020-01-20 10:56:09
本文原地址 https://www.cnblogs.com/subconscious/p/4107357.html 拜读原文之后,无比喜欢,怕以后找不到,所以转载,大家喜欢可以去看原文,真的很精彩。 从机器学习谈起   在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。   在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?   我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻     这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授,如今是Facebook人工智能实验室的主任。而左边的大家都很熟悉,Andrew Ng,中文名吴恩达,斯坦福大学副教授,如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛,被互联网界大鳄求贤若渴的聘请,足见他们的重要性。而他们的研究方向

什么是机器学习

走远了吗. 提交于 2020-01-18 20:28:32
原文链接: https://www.cnblogs.com/lsgsanxiao/p/6955502.html 机器学习入门好文,强烈推荐(转) 转自 飞鸟各投林 史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷 让我们从机器学习谈起 导读:在本篇文章中,将对 机器学习 做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻 这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授,如今是Facebook人工 智能 实验室的主任。而左边的大家都很熟悉,Andrew Ng,中文名吴恩达,斯坦福大学副教授,如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛,被互联网界大鳄求贤若渴的聘请,足见他们的重要性。而他们的研究方向,则全部都是机器学习的子类-- 深度学习 。 下图是图二: 图2

数据挖掘试题(150道)

a 夏天 提交于 2020-01-01 00:29:43
单选题 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?© A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 什么是KDD? (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则

百度助力数据挖掘世界杯KDD Cup 历史性革新

折月煮酒 提交于 2019-12-28 11:31:27
8月6日,一年一度的KDD(国际数据挖掘与知识发现)大会召开,这是数据挖掘领域国际最高级别会议,而其旗下赛事KDD Cup 被称为数据挖掘领域的“世界杯”。今年,KDD Cup 在赛制上进行了诸多创新,百度公司赞助并出题的常规机器学习竞赛(Regular ML Track)不仅刷新了参赛人数记录,也首次设置开放研究赛题,中国军团也不负众望,斩获大部分重量级奖项。同时,百度也是赛事的钻石赞助商,助推赛事奖金水涨船高。其创新的赛制与投入,也获得了KDD主席团的致信感谢。 KDD Cup 颁奖仪式现场 上千队伍云集,数据挖掘世界杯“神仙打架” 据悉,KDD Cup (国际知识发现和数据挖掘竞赛)由ACM(美国计算机协会)举办,后者是世界上影响力最强的科学性及教育性计算机组织。今年4月,历经重重答辩PK之后,百度脱颖而出,继微软研究院、雅虎等世界顶级科技公司或研究机构,拿下了KDD Cup 2019主赛道常规机器学习竞赛的主办权。 在KDD Cup DAY演讲环节中,赛事组委会成员强调这项赛事已经深刻影响着业内的个体、企业与研究机构。组委会还认为赛事承办方应当让赛事在具有挑战性之余,也将它处于可控范围之内,经过慎重选拔,百度被确立为常规机器学习竞赛的承办方。作为国内外均享有盛誉的人工智能巨头,百度在人工智能、大数据、计算机科学等领域均具备领先地位,并且在AI落地与产业智能化方面成绩卓著

数据挖掘——时间序列分析

让人想犯罪 __ 提交于 2019-12-27 10:10:50
时间序列分析 一、 概念 时间序列(Time Series) 时间序列是指同一统计指标的数值按其发生的时间先后顺序排列而成的数列(是均匀时间间隔上的观测值序列)。 时间序列分析的主要目的是根据已有的历史数据对未来进行预测。 时间序列分析主要包括的内容有:趋势分析、序列分解、序列预测。 时间序列分解(Time-Series Decomposition) 时间序列按照季节性来分类,分为季节性时间序列和非季节性时间序列。 时间序列的构成要素: 长期趋势 T:现象在较长时期内受某种根本性因素作用而形成的总的变动趋势 季节变动 S:现象在一年内随着季节的变化而发生的有规律的周期性变动 循环趋势 C:现象以若干年为周期呈现出的波浪起伏形态的有规律的变动 不规则变动 I:是一种无规律可循的变动,包括严格的随机变动和不规则的突发性影响很大的变动两种类型 二、 非季节性时间序列 移动平均(MA,Moving Average) 移动平均是一种简单平滑技术,它通过在时间序列上逐项退役取一定项数的均值,来表现指标的长期变化和发展趋势 1、 简单移动平均(SMA) 简单移动平均将时间序列上前n个数值做简单的算术平均。 SMAn = ( x1 + x2 + …… + xn)/ n 2、 加权移动平均(WMA) 加权移动平均,在基于简单移动平均的基础上,对时间序列上前n期的每一期数值赋予相应的权重

数据挖掘面试

早过忘川 提交于 2019-12-05 01:49:05
问题一: 你简历中上过的数据挖掘、机器学习等课程,是学校的研究生课程还是自己单独学习的;回答道:研究生课程有学习,自己单独私下也有学习 1、监督学习和无监督学习的区别?分类回归一般属于哪种?聚类属于哪种?请举例你知道的相关有监督学习和无监督学习算法 1:监督学习和无监督学习的区别在于:监督学习数据样本是带有标签的,而无监督学习的数据样本是没有标签的;分类回归一般属于监督学习,聚类是无监督学习;无监督学习大致又有层次聚类、核密度聚类等(本人对无监督研究并不是很深入,大致答了)常见的监督学习:KNN、决策树(后面陆续问到决策树有几种,区别是什么)、SVM(后续问到常用的核函数有哪些)、随机森林、xgboost、朴素贝叶斯、逻辑回归、神经网络;无监督学习主要有:K-means,基于密度聚类、基于谱聚类、ISO-Forest接触的等等 2、生成式模型和判别式模型的区别 2:判别式模型建模过程主要是依靠代价准则函数,通过代价准则函数,拟合出一个最优判别方程,进行判别,而生成式模型主要是依靠挖掘数据的内在规则(因此数据量要求也高),生成一个概率估计;例如逻辑回归和朴素贝叶斯,前者是判别模型,后者是生成模型 3、你对集成算法有了解吗?为什么集成要求的是弱分类器,弱分类器的定义是什么?而不能是强分类器?GBDT和xgboost的区别是什么? 3:对集成学习有一定的了解;弱分类器

数据挖掘 第7章 关联分析:高级概念

匿名 (未验证) 提交于 2019-12-02 23:41:02
第7章 关联分析: 高级概念 本章就扩展到具有二元属性、分类属性和连续属性的数据集。 扩充到包含 序列 和 图形 如何扩展传统的Apriori算法来发现这些模式 7.1 处理分类属性 将分类属性和对称二元属性转换成项,就可以用已有的关联规则挖掘算法;将每个不同的属性-值对创建一个新的项(即转化为非对称二元属性)来实现 将关联分析用于二元化后的数据时,需要考虑如下问题: 合并不太频繁的属性值变成一个称作其他的类别。 删除某些出现频率很高的属性;或者使用处理具有宽支持度的极差数据集的技术 避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。 7.2 处理连续属性 量化关联规则:包含连续属性的关联规则通常 三类方法对连续数据进行关联分析 基于离散化的方法 基于统计学的方法 非离散化方法 7.1 基于离散化的方法 离散化技术:等宽、等频、聚类 区间宽度问题: 区间太宽,缺乏置信度 区间太窄,缺乏支持度 区间宽度解决方法:考虑邻近区间的每种可能的分组(即等步长的渐渐加大区宽),但这也导致了: 计算开销非常大 ―― 可以使用最大支持度阈值,防止创建对应于非常宽的区间的项,并减少项集的数量 提取许多冗余规则 7.2 基于统计学的方法 量化关联规则可以推断总体的统计性质 包括规则产生和规则确认 规则产生:先找到需要关注的目标属性

数据挖掘与数据仓库――分类

匿名 (未验证) 提交于 2019-12-02 23:34:01
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/budding0828/article/details/90311845 分类算法 什么是分类 一些常见的概念: 训练集(Training data):用于训练模型(的参数,如神经网络的各层权重和偏置,线性回归分析的系数); 验证集(Validation data):用于调整超参数(Hyper-Parameters,如神经网络的宽度和深度、学习率等); 测试集(Test data):用于评价模型本身的有效性(准确率等) 训练误差(Training error):分类器在训练集上的误差。 泛化误差(Generalization error,out-of-sample error):分类器在未见样本(不在训练集中的样本)上的误差。 对于数据集的划分 划分法: 训练集与测试集 把样本划分成2个独立的数据集合, 如, 训练集 (2/3), 测试集(1/3)。 适用于大规模的数据样本。 交叉验证(Cross-validation) 把数据集合划分成k 个子样本; 使用k - 1 个子样本作为训练集,另一个作为测试样本―k-折交叉验证。 适用于中等规模的数据。 留一测试(Leave One Out, k = n) 适用于小规模数据。 泛化误差的偏差/方差分解、过拟合、欠拟合 以回归为例

《python数据分析和数据挖掘》——数据预处理

心不动则不痛 提交于 2019-11-30 18:25:18
此文为《python数据分析和数据挖掘》的读书笔记 通俗讲,经过我们前期的数据分析,得到了数据的缺陷,那么我们现在要做的就是去对数据进行预处理,可包括四个部分:数据清洗、数据集成、数据变换、数据规约。 处理过程如图所示: 1、数据清洗 1) 缺失值处理: 删除记录、数据插补、不处理。不处理吧总感觉不自在,删除了吧数据又有点舍不得,所以一般插补方法用的比较多,该文重点介绍Lagrange插补法和牛顿插补法,并介绍代码。 偷点懒他的详细过程我截图好了。 a 拉格朗日插补法 b 牛顿插补法 但是由于python中的Scipy库中提供了Lagrange插值法的函数,实现上更为容易,应用较多。而牛顿插值法则需要根据自行编写。需要指出两者给出的结果是相同的(相同次数、相同系数的多项式),不过表现的形式不同而已。 二话不说贴上亲测的python代码: import pandas as pd from scipy.interpolate import lagrange#导入拉格朗日函数 import sys sys.__stdout__=sys.stdout inputfile='catering_sale.xls'#销售数据途径 outputfile='tmp/sales.xls'#输出数据途径 data=pd.read_excel(inputfile,Index_col=u'日期')#读入数据

数据挖掘分类算法的优缺点总结

旧城冷巷雨未停 提交于 2019-11-26 21:49:34
最近在学习数据挖掘中的分类算法,顺便整理了各种分类算法的优缺点。 决策树 一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。 优点: 1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义; 2. 数据预处理阶段比较简单,且可以处理缺失数据; 3. 能够同时处理数据型和分类型属性,且可对有许多属性的数据集构造决策树,其他技术往往需要数据属性的单一; 4. 是一个白盒模型,若给定一个观察模型,则根据所产生的决策树很容易推断出相应的逻辑表达式; 5. 在相对短的时间内能够对大数据集合做出可行且效果良好的分类结果。 缺点: 1. 对于那些各类别样本数目不一致的数据,信息增益的结果偏向于那些具有更多数值的属性; 2. 对噪声数据较为敏感; 3. 容易出现过拟合问题; 4. 忽略了数据集中属性之间的相关性。 可以处理的样例数据集:Soybean数据集 diaporthe-stem-canker,6,0,2,1,0,1,1,1,0,0,1,1,0,2,2,0,0,0,1,1,3,1,1,1,0,0,0,0,4,0,0,0,0,0,0 diaporthe-stem-canker,4,0,2,1,0,2,0,2,1,1,1,1,0,2,2,0,0,0,1,0,3,1,1,1,0,0,0,0,4,0,0,0,0,0,0 diaporthe-stem