数据挖掘技术

数据挖掘是如何解决问题的

旧巷老猫 提交于 2020-03-22 02:10:28
数据挖掘是如何解决问题的 本节通过几个数据挖掘实际案例来诠释如何通过数据挖掘解决商业中遇到的问题。 2.1.1 节中关于“啤酒和尿不湿”的故事是数据挖掘中最经典的案例。而 Target 公司通过“怀孕预测指数”来预测女顾客是否怀孕的案例也是近来为数据挖掘学者最津津乐道的一个话题。 很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。 尿不湿和啤酒 超级商业零售连锁巨无霸沃尔玛公司( Wal Mart )拥有世界上最大的数据仓库系统之一。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,从而知道顾客经常一起购买的商品有哪些。在沃尔玛庞大的数据仓库里集合了其所有门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘。一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒”!这是数据挖掘技术对历史数据进行分析的结果,反映的是数据的内在规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值? 为了验证这一结果,沃尔玛派出市场调查人员和分析师对这一结果进行调查分析。经过大量实际调查和分析,他们揭示了一个隐藏在“尿不湿与啤酒”背后的美国消费者的一种行为模式:在美国

数据挖掘篇——特征工程之特征降维

这一生的挚爱 提交于 2020-03-15 23:18:28
在业界广泛流传着一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 由此可见,数据和特征是多么的重要,而在数据大多数场景下,数据已经就绪,不同人对于同样的数据处理得到的特征却千差万别,最终得到的建模效果也是高低立现。从数据到特征这就要从特征工程说起了... 0. 特征工程 首先介绍下,特征工程是什么:利用数据领域的相关知识来创建 能够使机器学习算法达到最佳性能的 特征的过程 [1.wiki] 。特征工程是一个较大领域,它通常包括特征构建、特征提取和特征选择这三个子模块,重要性排序:特征构建>特征提取>特征选择。 先来介绍几个术语: 特征构建:从原始数据中构建出特征,有时也称作特征预处理,包括缺失值处理、异常值处理、无量纲化(标准化/归一化)、哑编码等。 特征提取:将原特征转换为一组具有明显物理意义或统计意义或核的新特征。 特征选择:从特征集合中挑选一组最具统计意义的特征子集。 其中本文主要总结下可统一用于特征降维的特征提取和特征选择技术方法,特征构建涉及技术点较少,下回再分解。 1. 特征降维 WHAT :将高维空间的特征通过删减或变换转为低维空间特征 WHY :降低时间/空间复杂度、降低提取特征开销、降噪、提升鲁棒性、增强可解释性、便于可视化; HOW :主要有两种方式,即特征选择和特征提取。 1.1 特征选择(子集筛选): 特征选择方法主要分为三种:

清华大学数据挖掘课程幕课习题(第一章前五节)

眉间皱痕 提交于 2020-03-06 17:40:08
第一章第二节 1.“教育不是灌输,而是点燃火焰” 这一思想出自于: 苏格拉底 。 2.如何学好数据挖掘技术? 认真学习幕课视频;充分利用课后阅读材料;勤于动手,实践出真知;主动思考,知其然,知其所以然。 第一章第三节 1.在超市环境中对客户位置轨迹进行记录和分析的主要目的有哪些? 对拥挤人群进行预警;优化商场布局;个性化营销。 2. 在实际数据分析工作中,数据类型转换和数据自身的错误是面临的主要挑战之一。 正确 3.大数据和传统数据分析相比,核心特征就是数据量大。 错误,是数据量,数据类型和数据产生的速度。 第一章第四节 1.理想的数据挖掘工作成果应当: Interesting;useful;hidden。 2.ETL系统主要包括: 数据提取;数据转换;数据装载 。 第一章第五节 1.分类器在训练样本上的学习误差越低越好。 这是错误的,如果误差越小,说明在空间中分类的线越复杂,对于新样本的判断不一定准确。就像一个死读书的人,在面对他没有见过的知识时,不知道是一个道理,因此,也不是越大就越好。 2.混淆矩阵中False Negative的含义是: 被错误的分为负类的样本。 3.在ROC分析中,分类器的性能曲线的理想状态是: 越靠上越好,AUC趋近于1. 4.以下最有可能涉及代价敏感分类问题的是: 银行信用卡评分模型。 5.假设目标客户占人群的5%,现根据用户模型进行打分排序

《数据挖掘(完整版)》笔记——最近邻分类器

可紊 提交于 2020-03-02 11:26:22
最近邻分类器 1. 算法 2. 最近邻分类器的特征 决策树和基于规则的分类器是 积极学习方法 的例子,因为如果训练数据可用,衙门就开始学习从输入属性到类标号的映射模型。与之相反的策略是推迟对训练数据的建模,知道需要分类测试样例时再进行,采用这种策略的技术被称为 消极学习方法 消极学习方法的一个例子是Rote分类器,它记住整个训练数据,仅当测试实例的属性和某个训练样例完全匹配才进行分类 使用该方法更灵活的一个途径是找出和测试样例的属性相对接近的所有训练样例。给定样例 z z z 的k-近邻是指和 z z z 距离最近的k个数据点 1. 算法 一旦得到最近邻表,测试样例就会根据最近邻中的多数类进行分类: 多 数 表 决 : y ′ = a r g m a x v ∑ ( x i , y i ∈ D z ) I ( v = y i ) 多数表决:y' = \underset{v}{argmax} \sum_{(x_i,y_i \in D_z)}I(v=y_i) 多 数 表 决 : y ′ = v a r g ma x ​ ∑ ( x i ​ , y i ​ ∈ D z ​ ) ​ I ( v = y i ​ ) v v v 是类标号, y i y_i y i ​ 是一个最近邻的类标号, I ( ⋅ ) I(\cdot) I ( ⋅ ) 是示性函数 每个近邻对分类的影响都一样,这使得算法对

数据挖掘概念与技术

限于喜欢 提交于 2020-02-26 00:33:51
3.数据预处理: 在现实社会中的数据往往存在 噪声数据、缺失值和不一致数据 的问题。为了提高数据挖掘工作的效率和准确性,需要使用 数据清理、数据集成、数据归约和数据变换 等方法对数据进行预处理操作。 数据质量的三个要素是: 准确性、完整性和一致性 。 3.1 数据清理 数据清理试图填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致。 3.1.1 缺失数据 对于缺失值,通常包含以下一些做法: 忽略元组。(该方法比较暴力,在缺失几个字段时,直接摒弃这行数据记录) 人工填写缺失值。 使用一个全局常量填充缺失值。(例如,统一替换缺失的值为NULL) 利用属性的中心度量(平均值/中位数)填充缺失值。 (例如,某位雇员的年收入字段缺失,利用所有雇员的年收入平均值后者中位数填充) 使用与给定元组同一类的所有样本的属性均值或者中位数填充。(相比4更加合理,例如雇员的职位是基础工程师,那么拿所有基础工程师的年收入均值或者中位数填充) 使用最 可能的值 填充。(获得最可能的值的方法,包括使用回归、贝叶斯形式化的方法基于推理工具或者决策树归纳) 3.1.2 噪声数据 噪声数据是被测量的变量的随机误差或方差。下面列举了一些“数据光滑”的技术。 1.分箱方法: 分箱方法通过考察数据的周围的值来光滑 有序数据值 。下边图表示了“用箱均值” 和 “用箱边界” 两种光滑手段,将有序的9个数字排序后放入3个箱子内

《数据挖掘(完整版)》笔记 - 决策树

夙愿已清 提交于 2020-02-25 01:50:26
决策树 1. 决策树归纳的特点 2. 模型的过分拟合 3. 估计泛化误差 3.1 再代入估计 3.2 结合模型复杂度 1. 决策树归纳的特点 决策树归纳是一种构建分类模型的非参数方法,换句话说,它不要求任何先验假设,不假定类和其他属性服从一定的概率分布 找到最佳的决策树是NP完全问题,许多决策树算法都采用启发式的方法指导对假设空间的搜索 已开发的构建决策树技术不需要昂贵的计算代价,即使训练集非常大,也可以快速建立模型。决策树一旦建立,未知样本样本分类非常快,最坏情况下的时间复杂度为 O ( w ) O(w) O ( w ) ,其中 w w w 是树的最大深度 决策树是学习力散值函数的典型代表。然而它不能很好地推广到某些特定的布尔问题。一个著名的例子是奇偶函数,当奇数(偶数)个布尔属性为真时其值为0(1),对这样的函数建模需要一棵具有 2 d 2^d 2 d 个节点的满决策树,其中 d d d 是布尔属性的个数 决策树算法对噪声的干扰具有相当好的鲁棒性 冗余属性不会对决策树的准确率造成不利的影响。一个属性如果在数据中与另一个属性是强关联的,那么它是冗余的。在两个冗余的属性中,如果已经选择其中一个作为用于划分的属性,另一个将被忽略 由于大多数的决策树算法都采用自顶向下的递归划分法,因此沿着树向下,记录会越来说越少。在叶节点,记录太少,对于叶节点代表的类,不能做出具有统计意义的判决

大数据案例分析

可紊 提交于 2020-02-06 19:56:52
摘自 https://www.cnblogs.com/ShaYeBlog/p/5872113.html 一、大数据分析在商业上的应用 1、体育赛事预测 世界杯期间,谷歌、百度、微软和高盛等公司都推出了比赛结果预测平台。百度预测结果最为亮眼,预测全程64场比赛,准确率为67%,进入淘汰赛后准确率为94%。现在互联网公司取代章鱼保罗试水赛事预测也意味着未来的体育赛事会被大数据预测所掌控。 “在百度对世界杯的预测中,我们一共考虑了团队实力、主场优势、最近表现、世界杯整体表现和博彩公司的赔率等五个因素,这些数据的来源基本都是互联网,随后我们再利用一个由搜索专家设计的机器学习模型来对这些数据进行汇总和分析,进而做出预测结果。”--- 百度北京大数据实验室的负责人张桐 2、股票市场预测 去年英国华威商学院和美国波士顿大学物理系的研究发现,用户通过谷歌搜索的金融关键词或许可以金融市场的走向,相应的投资战略收益高达326%。此前则有专家尝试通过Twitter博文情绪来预测股市波动。 理论上来讲股市预测更加适合美国。中国股票市场无法做到双向盈利,只有股票涨才能盈利,这会吸引一些游资利用信息不对称等情况人为改变股票市场规律,因此中国股市没有相对稳定的规律则很难被预测,且一些对结果产生决定性影响的变量数据根本无法被监控。 目前,美国已经有许多对冲基金采用大数据技术进行投资,并且收获甚丰

最近对数据挖掘感兴趣了,为什么国外的课程会这么好

烈酒焚心 提交于 2020-01-27 14:09:46
贴上671coder的一篇帖子 : 原址见 : http://blog.csdn.net/liuqiyao_01/article/details/37904611 前言 事实上有许多的途径可以了解机器学习,也有许多的资源例如书籍、公开课等可为所用,一些相关的比赛和工具也是你了解这个领域的好帮手。本文我将围绕这个话题,给出一些总结性的认识,并为你由程序员到机器学习高手的蜕变旅程中提供一些学习指引。 机器学习的四个层次 根据能力可以将学习过程分成四个阶段。这也是一个有助于我们将所有学习资源进行分类的好方法。 初学阶段 新手阶段 中级阶段 高级阶段 我之所以把初学阶段和新手阶段区分开来,是因为我想让那些完全初学者(对这个领域感兴趣的程序员)在初学阶段对机器学习有一个大致的认识,以便决定是否继续深入。 我们将分别探讨这四个阶段,并推荐一些能够帮助我们更好地理解机器学习和提高相关技能的资源。对学习阶段进行这样的分类只是我个人的建议,也许每个分类的前后阶段中也有一些适合当前阶段的资源。 我认为对机器学习有一个整体性的认识是非常有帮助的,我也希望能听听你们的想法,通过在下面评论告诉我吧! 初学阶段 初学者是指那些对机器学习感兴趣的程序员。他们或许已经接触过一些相关的书籍、wiki网页,或者是已经上过几节机器学习课程,但是他们并没有真正地了解机器学习

百度助力数据挖掘世界杯KDD Cup 历史性革新

半城伤御伤魂 提交于 2020-01-26 15:38:55
8月6日,一年一度的KDD(国际数据挖掘与知识发现)大会召开,这是数据挖掘领域国际最高级别会议,而其旗下赛事KDD Cup 被称为数据挖掘领域的“世界杯”。今年,KDD Cup 在赛制上进行了诸多创新,百度公司赞助并出题的常规机器学习竞赛(Regular ML Track)不仅刷新了参赛人数记录,也首次设置开放研究赛题,中国军团也不负众望,斩获大部分重量级奖项。同时,百度也是赛事的钻石赞助商,助推赛事奖金水涨船高。其创新的赛制与投入,也获得了KDD主席团的致信感谢。 KDD Cup 颁奖仪式现场 上千队伍云集,数据挖掘世界杯“神仙打架” 据悉,KDD Cup (国际知识发现和数据挖掘竞赛)由ACM(美国计算机协会)举办,后者是世界上影响力最强的科学性及教育性计算机组织。今年4月,历经重重答辩PK之后,百度脱颖而出,继微软研究院、雅虎等世界顶级科技公司或研究机构,拿下了KDD Cup 2019主赛道常规机器学习竞赛的主办权。 在KDD Cup DAY演讲环节中,赛事组委会成员强调这项赛事已经深刻影响着业内的个体、企业与研究机构。组委会还认为赛事承办方应当让赛事在具有挑战性之余,也将它处于可控范围之内,经过慎重选拔,百度被确立为常规机器学习竞赛的承办方。作为国内外均享有盛誉的人工智能巨头,百度在人工智能、大数据、计算机科学等领域均具备领先地位,并且在AI落地与产业智能化方面成绩卓著

数据掘金:电子商务运营突围

泪湿孤枕 提交于 2020-01-25 11:13:37
《数据掘金:电子商务运营突围》 基本信息 作者: 谭磊 出版社:电子工业出版社 ISBN:9787121138973 上架时间:2013-5-24 出版日期:2013 年6月 开本:16开 页码:464 版次:1-1 所属分类:经济管理 更多关于 》》》《 数据掘金:电子商务运营突围 》 内容简介 经济管理学书籍   电商坐拥互联网行业最丰富的用户数据金矿,却很少有人从中挖掘出真金白银。《数据掘金:电子商务运营突围》一书旨在打破这一困境,一步一步引导从业者以数据为核心来运营网站或网店。本书用浅显的文字与独特的视角,不仅成功解读电商数据运营之惑,更呈现大量数据分析和挖掘的必要基础知识及实用相关工具。在通过阅读轻松掌握电商数据运营须关注的要点与方法之后,读者还可有针对性地从书中选择学习如何利用数据来完成——流量获取优化、广告投放、客户分析,以及客户价值提升等一系列电商运营要务。    《数据掘金:电子商务运营突围》一书主要写给电商从业人员,无论是中小电子商务的运营人员、数据分析人员,还是大公司负责电子商务的策略官、市场官和运营官,都能从本书中找到自己所需且急需的有价值内容。 目录 《数据掘金:电子商务运营突围》 第1章 引言:电子商务运营和数据1 1.1 2012年最大的赌局2 1.2 为300万人建300万个网站6 1.2.1 电子商务的rupi概念7 1.2.2 在互联网上卖米8