数据挖掘

Python 数据挖掘 工具包整理

谁都会走 提交于 2020-02-23 17:53:34
连接器与io 数据库 类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle MongoDB pymongo RMongo, rmongodb ODBC pyodbc RODBC IO类 类别 Python R excel xlsxWriter, pandas.(from/to)_excel, openpyxl openxlsx::read.xlsx(2), xlsx::read.xlsx(2) csv csv.writer read.csv(2), read.table json json jsonlite 图片 PIL jpeg, png, tiff, bmp 统计类 描述性统计 类别 Python R 描述性统计汇总 scipy.stats.descirbe summary 均值 scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean mean 中位数 numpy.median, numpy.nanmediam, pandas.Series.median median 众数 scipy.stats.mode, pandas.Series

[Python数据挖掘]第5章、挖掘建模(上)

孤街醉人 提交于 2020-02-23 01:28:08
一、分类和回归 回归分析研究的范围大致如下: 1、逻辑回归 #逻辑回归 自动建模 import pandas as pd from sklearn.linear_model import LogisticRegression as LR from sklearn.linear_model import RandomizedLogisticRegression as RLR #参数初始化 data = pd.read_excel('data/bankloan.xls') x = data.iloc[:,:8].as_matrix() #loc和iloc是Pandas中用于提取数据的函数 y = data.iloc[:,8].as_matrix() #复制一份,用作对比 x1=x y1=y rlr = RLR() #建立随机逻辑回归模型,筛选变量 rlr.fit(x, y) #训练模型 rlr.get_support() #获取特征筛选结果,也可以通过.scores_方法获取各个特征的分数 print(u'通过随机逻辑回归模型筛选特征结束。') print(u'有效特征为:%s' % ','.join(data.iloc[:,0:8].columns[rlr.get_support()])) #原代码此处报错 x = data[data.iloc[:,0:8].columns[rlr

SAS数据挖掘实战篇【二】

与世无争的帅哥 提交于 2020-02-19 07:24:08
SAS数据挖掘实战篇【二】 从 SAS数据挖掘实战篇【一】 介绍完目前的数据挖掘基本概念之外,对整个 数据挖掘 的概念和应用有初步的认识和宏观的把握之后,我们来了解一下SAS数据挖掘实战篇【二】SAS工具的应用。首先来看一下SAS大概的一个软件界面。(这里面实际操作性较强,建议都打开软件,step by step自己操作一遍,印象深刻)操作流程如下: 1 认识 SAS Enterprise Miner 1启动SAS EM 方式1:首先打开SAS,然后在SAS命令栏输入miner,回车即可; 方式2:启动SAS,点击Solutions菜单下面的Analysis菜单下面的Enterprise Miner,即可启动SAS EM。 2建立工程和流程图 EM通过工程和流程图组织 数据分析 。每个工程可能有多个处理流程图,每个流程图可能包含多个数据分析。一般而言,每个流程图包括一个数据集的分析。 创建工程步骤: 1) 从SAS菜单创建工程 2) 为该工程输入工程名 3) 如果需要访问服务器,选择Client/Server选项,否则就不需要选择该项 4) 设置工程路径 5) 点击创建按钮,默认情况下生成一个流程图。 6) 选择流程图标题,输入流程图标题 3识别窗口组件 2 SAS EM挖掘过程 SEMMA概述 SAS公司将数据挖掘的核心过程分为抽样Sample、探索Explore

数据挖掘学习笔记(一)

岁酱吖の 提交于 2020-02-15 02:10:33
概述 数据分析与数据挖掘 1.数据分析 采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取有用的信息的过程。 数据分析一般具有比较明确的目标,可以根据数据分析的结果得出适当的判断,用来为以后的决策提供依据。 早在20世纪初期,数据分析的基础就已经确立。 数据分析的结果有表格,图(排列图、因果图、散布图、直方图、控制图)等表示方法。 2.数据挖掘(Data Mining,DM) 从海量的数据中通过相关的算法来发现隐藏在数据中的规律和知识的过程。 在大量的、未经过加工的数据中发现少量的、具有重要价值的知识和信息。 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。 也叫资料勘探或数据采矿 为什么要进行数据挖掘呢? 数据的爆炸式增长:从TB到PB 丰富数据的主要来源: 商业:Web、电子商务、交易、股票… 科学:遥感、生物信息学、科学仿真… 社会与个人:新闻、数码相机、YouTube… 数据采集与数据可用性: 自动数据收集工具、数据库系统、Web… 计算机化的社会 通常将数据挖掘视为数据中“知识发现”的同义词,也可以认为数据挖掘是知识发现中的一个步骤。 3.知识发现(KDD)的过程 首先要对收集到的数据进行预处理(数据清洗与数据集成),然后将数据仓库中的数据进行选择与变换,以便从数据仓库中选择与任务相关的数据

读书笔记 数据化营销

霸气de小男生 提交于 2020-02-12 01:15:38
1.1 现代营销理论的发展历程 1.1.1 从4P到4C 1960年 杰罗姆·麦卡锡(E.Jerome McCarthy) 著作《基础营销》BasicMarketing) 1967年 现代营销之父 菲利普·科特勒 著作《营销原理》 4P product : 注重产品功能,强调独特卖点 price : 根据不同市场定位,制定不同的价格策略 place :注重分销商的培养和销售网络的建设 promotion :企业通过改变销售行为来刺激消费者,以短期的行为(如让利、买赠、满减)促成消费的增长,吸引其他品牌的消费者前来消费,或者促使老主顾提前来消费,从而达到销售的目的。 4P理论的核心是Product(产品)。因此,以 4P 理论为核心的企业营销战略又可以简称为 以产品为中心 的营销战略。 随着时代的发展,商品丰富起来,市场竞争也日益激励。传统的4P营销组合已经无法适应商业时代的需求,营销界开始研究新的营销理论和营销要素。最具代表的是4C理论。 4C Consumer 消费者的需求和愿望 Cost 消费者得到满足的成本 Convenience 用户购买的方便性 Communication 与用户的沟通与交流 简称 以消费者为中心 的营销 1.1.2 从4C到3P3C 随着科技的发展,大数据时代的来临,4C理论再次落后。 日益白热化的市场竞争 越来越严苛的营销预算 海量的数据堆积和存储

软计算研究综述

送分小仙女□ 提交于 2020-02-09 23:43:03
论文:Survey on soft computing 作者:Yun Liang1 • Tian-ping He 在线发布时间: 13 November 2019,本篇为阅读笔记! 目录 摘要 1 介绍 2 软计算发展史 2.1 胚胎时期(1900s~1960s) 2.2 软计算初始发展阶段(1960s-1990s) 2.3 软计算概念的引入(1992) 2.4 软计算繁荣发展时期(1992至今) 3 软计算应用 3.1 软计算在工程领域的应用 3.1.1 误差诊断 3.1.2 结构参数识别 3.1.3 油气资源勘探 3.1.4 焊接 3.1.5 人工智能 3.1.6 大数据 3.2 软计算在人文社科领域的应用 摘要 软计算如何演化至今?软计算的应用场景是什么? 软计算被广泛用于哪个领域? 在哪个领域中软计算仍需得到普及? 1 介绍 软计算不同于传统硬计算,软计算是一系列方法,其旨在探索对非精确和非确定性的容忍度以此获得可追溯性、鲁棒性、以及较低的问题解决成本。软计算方法主要包含:粗糙系统、神经网络、概率推理、进化计算(混沌理论、遗传算法、人工生命、学习理论等等) 当今,软计算在AI、科学以及工程领域应用广泛,在人文社科领域却发展迟缓。 2 软计算发展史 2.1 胚胎时期(1900s~1960s) 传统计算模式面临巨大挑战 1)过度依赖数学模型

大数据挖掘流程及方法

旧时模样 提交于 2020-02-08 19:16:52
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 一、 数据挖掘对象 根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。 二、数据挖掘流程 定义问题:清晰地定义出业务问题,确定数据挖掘的目的。 数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。 结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。 三、 数据挖掘分类 直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。 间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。 四、数据挖掘的方法 神经网络方法 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注

数据库开发转行大数据开发工程师怎么样?

China☆狼群 提交于 2020-02-08 16:59:58
数据库开发转行大数据开发工程师怎么样?大数据的方向的工作有大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。有工作经验想转行大数据开发主要考察基础、学习能力、解决问题的能力。想转转行大数据开发工程师先了解一下大数据工程师的学习路线: 转行大数据开发工程师怎么样   1、分布式计算框架   掌握hadoop和spark分布式计算框架,了解文件系统、消息队列和Nosql数据库,学习相关组件如hadoop、MR、spark、hive、hbase、redies、kafka等   2、算法和工具   学习了解各种数据挖掘算法,如分类、聚类、关联规则、回归、决策树、神经网络等,熟练掌握一门数据挖掘编程工具:Python或者Scala。目前主流平台和框架已经提供了算法库,如hadoop上的Mahout和spark上的Mllib,你也可以从学习这些接口和脚本语言开始学习这些算法。   3、数学   补充数学知识:高数、概率论和线代   4、项目实践   开源项目:tensorflow:Google的开源库,已经有40000多个star,非常惊人,支持移动设备   基础知识加强通过企业实习获取项目经验   如果你仅仅是做大数据开发和运维,则可以跳过第二步和第三步,如果你是侧重于应用已有算法进行数据挖掘,那么第三步也可以先跳过。   数据库开发工程师转行大数据的方向的工作有

数据挖掘学习之路一:数据挖掘认识

半世苍凉 提交于 2020-02-08 00:09:51
1.什么是数据挖掘? 数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。 数据挖掘就是通过分析采集而来的数据源,从庞大的数据中发现规律,找到宝藏。 2.数据挖掘的基本流程 数据挖掘可分为6个步骤:  1.商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。  2.数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。  3.数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作  4.模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果  5.模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标  6.上线发布: :模型的作用是从数据中找到金矿

数据挖掘、数据分析以及大数据之间的区别有哪些?

三世轮回 提交于 2020-02-07 07:04:30
进入 大数据 时代,和数据相关的名词都被人们津津乐道。那 数据挖掘 、 数据分析 以及大数据之间有哪些区别呢?数据挖掘是发现信息以及收集数据的过程;数据分析则是将现有数据进行归纳以及分析得出相应结论的过程。而大数据则更加关注数据本身,重要表现就是数据量大,数据的多样性等等。   首先我们了解一下这三个概念分别有哪些具体的含义以及特点。    1、大数据:   指无法一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。   在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性) 。    2、数据分析:   是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。   数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。