数据挖掘

数据挖掘中所需的概率论与数理统计知识、上

旧巷老猫 提交于 2020-04-03 14:24:50
数据挖掘中所需的概率论与数理统计知识、上 ( 关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布 ) 导言 :本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文 第4节 ( 彻底 颠覆以前读书时大学课本灌输给你的观念 ,一探正态分布之神秘芳踪,知晓其前后发明历史由来 ),相信,每一个学过概率论与数理统计的朋友都有必要了解 数理统计学简史 ,因为,只有了解各个定理.公式的发明历史,演进历程.相关联系,才能更好的理解你眼前所见到的知识,才能更好的运用之。 前言 一个月余前,在 微博 上感慨道,不知日后是否有无机会搞DM,微博上的朋友 只看不发的围脖 评论道:算法研究领域,那里要的是数学,你可以深入学习数学,将算法普及当兴趣。想想,甚合我意。自此,便从 rickjin 写的“正态分布的前世今生”开始研习数学。 如之前微博上所说,“ 今年5月接触DM,循序学习决策树.贝叶斯,SVM.KNN,感数学功底不足,遂补数学,从‘正态分布的前后今生’中感到数学史有趣,故买本微积分概念发展史读,在叹服前人伟大的创造之余,感微积分概念模糊,复习高等数学上册,完后学概率论与数理统计,感概道:微积分是概数统计基础,概数统计则是DM&ML之必修课 。”包括读者相信也已经感觉到,我在写这个 Top 10 Algorithms in Data

航空公司客户价值分析

北城以北 提交于 2020-03-30 13:07:16
根据抽取的数据,进行数据探索分析,本案例的探索分析,主要是缺失值分析和异常值分析,通过观察数据,我们得知,数据存在票价为空值,票价最小值为0,折扣率最小值为0,总飞行公里数大于0的情况。 票价为空,可能是客户不存在乘机记录造成的,其它客户可能是因为客户乘坐0折机票或者积分兑换产生的。 然后计算出每个属性对应的空值的属性和最大值和最小值,然后再进行数据的清洗和变换,数据探索的代码如下: # -*- coding: utf-8 -*- import pandas as pd inputfile='F:\\python数据挖掘\\chapter7\\demo\\data\\air_data.csv' outputfile='F:\\python数据挖掘\\chapter7\\demo\\tmp\\tansuo.xls' data=pd.read_csv(inputfile,encoding='utf-8') tansuo=data.describe(percentiles=[],include='all').T tansuo['null']=len(data)-tansuo['count'] tansuo=tansuo[['null','max','min']] tansuo.columns=[u'空值数',u'最大值',u'最小值'] tansuo.to_excel

数据挖掘与BI

穿精又带淫゛_ 提交于 2020-03-30 06:34:04
  应该如何完整地理解"数据挖掘"?"数据挖掘"的理论基础是什么?   图1表示的是:   现实中人类的社会和经济活动,总可以用数据(数字或者符号)来描述和记录;经过对这些数据的分析,就会产生信息(知识);用这些信息(知识)来指导实践,就可以做出相应的决策;这些决策又引发了新一轮的社会和经济活动。循环往复,生息不止。   那么数据仓库(DW)、商务智能(BI)和知识发现(KDD)又分别是什么呢?   图2中的虚线部分有两个含义。   第一是因为上述概念诞生初始,在DM的价值链上还是有所侧重的,数据仓库重在"建仓",数据挖掘和知识发现重在"加工",商务智能重在"应用"。虚线表示曾经拥有。   第二,如果不这样画,理论界、应用厂商会不答应,因为不管原来是做数据库的(IBM,Sybase,NCR,Oracle,Microsoft,etc),还是做统计分析软件的(SAS,Statistica,SPSS,etc),甚至是做报表工具的(BO,Brio,Cognos,etc),都拼命在延伸自己的价值链。   所以,干脆叫数据管理(也就是DM)好了,一统天下。   至于ERP,CRM等,说白了,还是个DM,只不过限制在了具体的社会经济活动上罢了。   六种挖掘武器   数据仓库的建设 和 数据挖掘建模 是DM价值链上的两大技术要点。数据挖掘从狭义的角度讲,只管从数据到知识这一段

微软商业智能BI解决方案

∥☆過路亽.° 提交于 2020-03-28 11:12:42
明智决策,创造价值   随着企业各种信息系统的建设和完善,企业所拥有的数据越来越多。决策者面对的问题已经不再是缺少信息,而是如何得到正确的信息以帮助制定决策。典型的公司拥有数十乃至上百个应用,但是却难于从中提取、综合、使用这些系统的数据,继而从数据中提取有用的信息,发掘并提升数据的价值。   商业智能 (Business Intelligence ,简称 BI) 提供了提取数据、处理加工、信息访问的技术手段。经过多年发展,其运用范围逐渐由支撑特定业务过程的战术性决策发展到在企业范围内系统化地创造价值。因此,越来越多的企业已将其视为战略性的企业应用。   商业智能通过将分散在企业各系统中的数据进行整合,使得繁琐的信息获取过程变得简便易行。而微软商业智能解决方案则进一步提升了企业创造价值的能力:任何用户都能够容易的运用这些技术进行决策,业务执行、业务管理、企业管理各个层次上的用户都能够使用不同的工具和技术做出明智的决策,全方位的提高企业的竞争力。   商业智能系统建设的范畴包括:    •BI 基础平台 : 包括数据抽取、转化加载工具 (ETL) 、数据仓库、在线分析 (OLAP) 引擎、数据挖掘 (Data Mining) 引擎    •BI 用户工具 : 提供用户对 BI 数据进行分析的手段    •BI 门户 : 提供用户对大量 BI 信息的统一访问入口    •BI 应用

weka数据挖掘拾遗(一)---- 生成Arff格式文件

徘徊边缘 提交于 2020-03-24 04:55:58
一、什么是arff格式文件   1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式。   2、下面是weka自带的一个arff文件例子(weather.arff) 1 @relation weather 2 3 @attribute outlook {sunny, overcast, rainy} 4 @attribute temperature real 5 @attribute humidity real 6 @attribute windy {TRUE, FALSE} 7 @attribute play {yes, no} 8 9 @data 10 sunny,85,85,FALSE,no 11 sunny,80,90,TRUE,no 12 overcast,83,86,FALSE,yes 13 rainy,70,96,FALSE,yes 14 rainy,68,80,FALSE,yes 15 rainy,65,70,TRUE,no 16 overcast,64,65,TRUE,yes 17 sunny,72,95,FALSE,no 18 sunny,69,70,FALSE

数据挖掘入门算法整理

Deadly 提交于 2020-03-20 06:48:15
3 月,跳不动了?>>> 最近正打算学习一些数据挖掘方面的知识,开始看了一些相关博文,但是太过零碎,一直对此没有一个较为系统的认识。周末在图书馆闲逛,偶然看见《大话数据挖掘》一书,发现讲的比较有条理,还蛮适合入门的,因此就读了两章,作此笔记。本文只是介绍了数据挖掘入门的一些算法分类,不涉及具体算法实现。 一下是整理的算法分类图: 1、关联 关联是指一个事件与另一个事件之间的依赖关系。如经典的 尿布与啤酒 的关系。 apriori算法是最经典的关联规则算法,基本思想是:首先从事件中集中找到所有频繁出现的子集。然后在这些子集中发现可信度较高的规则。 2、聚类 聚类就是将对象划分成若干个类,在同一类中对象具有较高的相似度,不同类中对象差异较大。 基于对象间距离可以分为两类算法:划分方法(Partitioning Method)和层次聚类方法(Hierarchial Method)。前者的思想是:迭代计算各点到类中心点距离,类内数据点越近越好,类间点越远越好。后者思想是:将对象分层建立簇,形成一颗以簇为节点的树,自下而上的是聚集的层次聚类,自上而下的是分裂的层次聚类。 3、预测 预测是通过对反映了事物输入和输出之间的关联性的学习,得到预测模型,再利用该模型对未来数据进行预测的过程。如机器学习的一个简单模型:输入数据为(x1,y1),(x2,y2)...(xn,yn),通过输入数据的学习

史上最全的大数据入门手册!

淺唱寂寞╮ 提交于 2020-03-16 20:19:18
一、 大数据 分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 2,数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。 3,预测性分析能力 大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。 4,语义引擎 大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。 5,数据质量和数据管理 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的

浅谈R语言的面向对象编程

為{幸葍}努か 提交于 2020-03-13 00:50:28
R语言有两种不同的OOP机制,分别是从其前身S语言继承而来的S3 Object和S4 Object,其中S4 Object更加的正式、也是现在用于开发的主力军,所以本文就从S4 Object谈起,并在最后讨论一下古老的S3 Object。 那我们就开始吧!首先我们来设计一个时间序列类,在它的内部,需要包含主数据、起始时间与截止时间、取样间隔这些数据。在R中我们可以定义如下: setClass("TimeSeries", representation( data = "numeric", start = "POSIXct", end = "POSIXct" ) ) 在这段代码中,data/start/end用于存放数据,称作“槽(slot)”。 现在我们已经定义了一个类,我们就来创建一个TimeSeries对象吧! My_TimeSeries <- new("TimeSeries", data = c(1,2,3,4,5,6), start = as.POSIXct("01/12/2015 0:00:00", tz = "GMT", format = "%m/%d/%Y %H:%M:%S"), end = as.POSIXct("12/04/2015 0:00:00", tz = "GMT", format = "%m/%d/%Y %H:%M:%S") ) 与其他OOP语言类似

想从事数据科学家的自我修炼(浪叫兽的书单)一年之内从零基础入门(以不抱大腿的姿势)拿下数据竞赛 一等奖 ,二等奖,三等奖

本秂侑毒 提交于 2020-03-12 14:59:01
想从事数据科学家的自我修炼(浪叫兽的书单)一年之内从零基础入门(以不抱大腿的姿势)拿下数据竞赛 一等奖 ,二等奖,三等奖 携程赛的初练书单 在科赛网站上,我第一次报名参加了比赛是,酒店未来30天产量预测,当时参加比赛是16年的7月中旬了。距今日的17年5月中旬,不到一年的时间,在科赛网,同样是在携程的出题下拿到了一个冠军一等奖 进入正题把,我来写一下我的历史读书记录 和 自发学习过程: 其实刚刚入门是因为想玩爬虫爬新闻做预测: 入门读的书有: PYTHON自然语言处理中文翻译 NLTK 中文版 quantmod-R中的金融分析包 R数据导入和导出(包括RODBC) RODBC中文介绍 上面可能也是一些介绍把 了解了一下R语言,因为当初搞不定字符问题 就转战了Python爬虫,进入到了Python语言的学习 Python数据分析基础教程:NumPy学习指南(第2版) 然后找寻金融相关的资料 11.金融时间序列分析 第3版 依旧对R 不放心的时代 R语言核心技术手册(第2版) 自己动手写网络爬虫 用Python写网络爬虫 此时应该是在QQ群里找大鱼学的爬虫 scrapy 和 urllib ,后面发现requests + bs4 入门爬虫比较适合我,写了爬虫直接写个for 就把新闻爬到数据库中了。 在学numpy的过程中加入到了pandas的学习群 和牛叫兽学习pd

推荐-数据库知识网址摘录

徘徊边缘 提交于 2020-03-12 04:27:34
Access AccessQQ http://www.accessqq.com/ Access是微软数据库开发平台,QQ是一个聊天工具,该站之所以叫accessQQ,是想营造一种只聊Access的氛围,达到推广Access普及和相关资源共享。 所有程序,资源,文章都是站长原创为主,另会部分特邀嘉宾的得意之作。 中国ACCESS XP FAQ网站 http://bcd.office-cn.net/ 对 ACCESS XP 技术精品文章、FAQ 和参考手册都进行整理归类,以便于大家查找和阅读,并欢迎广大网友来稿或推荐稿件。 ACCESS软件网 http://www.accessoft.com/ 是由一群Access编程爱好者共同建立的网站,为非盈利性站点,旨在无偿为在使用Access编程技术上需要帮助的人们提供帮助,并通过成员之间的交流(发表技术文章等)共享计算机技术资源。 Access爱好者 http://www.accfans.net/ Access爱好者的乐园 Access911.net http://www.access911.net/ 以介绍 Microsoft Office Access 为主,介绍 Microsoft Office Access 与 Microsoft Office 其他组件(Word、Excel)联合应用为辅的专项站点。适合有志于学习 Office