数据分析

数据分析(一)

半腔热情 提交于 2020-02-11 06:29:59
学习python要有面向数组/多维数组的编程思维 numpy好的地方就在于可以进行数组层面的操作,不用循环去处理数组中的每一个元素,这叫做矢量化,以上用的函数基本都要在前面加上np. ndarray里面是同一种类型的数据 切片的赋值会影响到源数据 如果只是复制一份切片,需要用到copy() type(arr)是看arr的整个类型 arr.dtype是看arr中元素的数据类型 如何改变数据类型用astype 但是是产生一个新的数组,原数组类型不变 将元组列表等序列数组转换为ndarray用asarray 但是是创建了一个新的数组,原arr没有变 两种取值方式是等价的 以整数数组来取出对应数组 若传入多个整数数组,返回的是索引元组,注意是元组 本应该是一个3x3的矩阵才对,要想取得矩阵需要这样 还可以用np.ix_函数 用.T取得数组的转置 还可以通过transpose函数来转换轴来实现数组的转置 其中参数是变换后轴位置的元组,(1,0)表示,把原来的0轴和1轴对换 swapaxes函数是用来交换轴的,只能传入两个参数,意味着这个函数只能交换两个2轴 通用函数(ufunc):快速元素级数组函数 从字面上理解就是进行元素级别的函数,如sqrt、exp、maximum等 可以用来划分整数和小数的函数modf,返回的是两个数组 《利用python进行数据分析

excel做数据分析

折月煮酒 提交于 2020-02-10 12:22:47
小文章经历了两天的修改,发现了原来excel也可以做很基础的数据分析。 1:散点图做线性回归 功能很强大,如果是散点图的话,横坐标轴的标签没法改。 可以调整坐标轴线,刻度,名称,散点样式,回归线绘制,回归方程,误差线,网格线,图例,线型等等参数。 2:折线图 折线图的横坐标轴的标签可以修改,系列线还可做“平滑”处理。 例如,做一个趋势分析,或者做一个频数分布,都是针对一个变量的绘图。比如发生数量。 做频数分布时,要做一个区间分割。这里要使用到FREQUENCY函数,同时要使用ctrl+shift+enter,变成数组数据。 3:求相关系数 有三种办法,一个是PEARSON函数,一个是CORREL函数,一个是数据分析中的“相关系数”选项。 其中“数据分析”模块默认excel不打开,需要从“文件”-“选项”-“加载项”-”分析库工具“打开。 4:做T检验 如果是比较两个样本的均值是否有差异,可以用T检验,适用于样本量小于30的情形, 直接使用函数TTest即可。 5:方差分析 如果有多组的样本(>=2个),比较不同处理的结果是否有显著差异,如果是一种处理就是单因素,多种处理就是多因素方差分析。 比T检验误差要小,而且简单,不需要一对一对去做T检验。 例如,使用三种不同肥料,使用4种不同品种的种子,对比产量,看哪种因素对产量有显著影响 6:卡方检验 前面有篇日记记录了卡方检验

商业数据分析第七记

主宰稳场 提交于 2020-02-09 05:52:02
Python——数据分析利器 Python基础: Python能做什么? Python越来越火:Python是开源的;比较简洁 Python练习: Anaconda下载: Python相关: 编辑器: 保存——运行;保存——运行! 集成开发环境: debug方便调试! Jupyter notebook: 计算机硬件: 外设:鼠标、键盘、显示器 处理:CPU 存储:缓存>内存>硬盘(速度) 如何写程序? 基本指令 Anaconda打开方式: 打开Anaconda Prompt,输入cd命令,可以自己设置文件存放位置 不设置的话存放位置即C:\Users\admin,修改后则改变为C:\HS\Learning\Python 随后自动打开Jupyter notebook网页版! 注意:强烈不建议把文件存放到系统文件夹,如Program files等!!! Jupyter notebook常用的Cell有两个:Markdown,Code Markdown:记录想法,做笔记,排版也比较方便 Code:写程序,代码可以分段运行 Jupyter notebook还可以保存文件为多种形式,很方便,具体可以查询Help Jupyter notebook 中cell运行顺序: Cell前面的In[ ]中[ ]之间的数字就表示单元格代码的运行顺序! In[*]表示仍在运行或者卡住了。。。

【Python数据分析】pandas时刻数据:Timestamp

我的未来我决定 提交于 2020-02-08 16:02:50
目录 1.Timestamp 2.to_datetime 2.1 单个时间转化 2.2 多个时间转化 所谓的时刻数据代表时间点,是pandas的数据类型,是将值与时间点相关联的最基本类型的时间序列数据。 1.Timestamp Timestamp 是将数据类型转化为pandas的Timestamp类型 import pandas as pd import datetime date1 = datetime.datetime(2019, 12, 31, 12, 1, 2) # 创建一个datetime.datetime date2 = '2017-12-31' # 创建一个字符串 t1 = pd.Timestamp(date1) t2 = pd.Timestamp(date2) print(t1,type(t1)) print(t2,type(t2)) 2.to_datetime to_datetime 也是将数据类转化为pandas的Timestamp类型,但是如果是多个时间,则会转化为pandas的DatetimeIndex 2.1 单个时间转化 import pandas as pd from datetime import datetime date1 = datetime(2019, 12, 31, 12, 1, 2) # 创建一个datetime.datetime

数据分析常用工具

可紊 提交于 2020-02-08 01:16:12
NumPy NumPy(Numerical Python的简称)是Python科学计算的基础包。在本专题中的大部分内容都是基于NumPy以及构建于其上的库,它提供了以下功能(不限于此): - 快速高效的多位数组对象ndarray - 用于对数组执行元素级计算以及直接对数组执行数学运算的函数 - 用于读写硬盘上的基于数组的数据集工具 - 线性代数计算、傅里叶变换以及随机数生成 - 用于将C、C++、Fortran代码集成到Python工具中 除了Python提供快速的数组处理能力,NumPy在数据分析方面还有另外一个主要作用,即作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外,由低级语言(比如C和Fortran)编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。 pandas Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data

Python数据分析实战

匆匆过客 提交于 2020-02-08 01:10:17
Python数据分析实战(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1nlHM1IW8MYg3z79TUwIsWg 提取码:ux8t 复制这段内容后打开百度网盘手机App,操作更方便哦 内容简介 · · · · · · Python 简单易学,拥有丰富的库,并且具有极强的包容性。本书展示了如何利用Python 语言的强大功能,以最小的编程代价进行数据的提取、处理和分析,主要内容包括:数据分析和Python 的基本介绍,NumPy 库,pandas 库,如何使用pandas 读写和提取数据,用matplotlib 库和scikit-learn 库分别实现数据可视化和机器学习,以实例演示如何从原始数据获得信息、D3 库嵌入和手写体数字的识别。 作者简介 · · · · · · 作者简介: Fabio Nelli IRBM科学园IT科学应用专家,曾为IBM、EDS等企业提供咨询。目前正在开发Java应用,对接科学仪器和Oracle数据库,生成数据和Web服务器应用,为研究人员提供实时分析结果。他还是Meccanismo Complesso社区(www.meccanismocomplesso.org)的项目协调人。 译者简介: 杜春晓 英语语言文学学士,软件工程硕士。其他译著有《电子达人——我的第一本Raspberry Pi入门手册》和

数据挖掘、数据分析以及大数据之间的区别有哪些?

三世轮回 提交于 2020-02-07 07:04:30
进入 大数据 时代,和数据相关的名词都被人们津津乐道。那 数据挖掘 、 数据分析 以及大数据之间有哪些区别呢?数据挖掘是发现信息以及收集数据的过程;数据分析则是将现有数据进行归纳以及分析得出相应结论的过程。而大数据则更加关注数据本身,重要表现就是数据量大,数据的多样性等等。   首先我们了解一下这三个概念分别有哪些具体的含义以及特点。    1、大数据:   指无法一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。   在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性) 。    2、数据分析:   是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。   数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。  

3_多易教育之《yiee数据运营系统》数仓概念篇之一

ε祈祈猫儿з 提交于 2020-02-07 01:21:03
目录 一、什么是数据仓库 二、数据库vs数据仓库 1、数据库 2、数据库vs数据仓库 三、报表vs数据可视化vs ETL 1、报表 2、数据可视化 3、ETL 四、数仓分析主题 1、数仓主题的含义 2、电商行业数仓核心主题 1)、总体运营主题 2)、网站流量类主题 3)、销售转化类主题 4)、客户价值类主题 5)、商品类主题 6)、市场营销活动指标 7)、风控类指标 8)、市场竞争指标 3、本项目要实现的分析主题 一、什么是数据仓库 概念上:数据仓库,英文名称为Data WareHouse,可简写为DW或DWH。 数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 数据仓库(Data Warehouse)是一个 面向主题的(Subject Oriented)、集成的( Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的 数据集合,用于支持管理、运营决策。 (通俗来说,数仓就是一个数据备份和数据分析的系统) 小提示:反应历史变化的含义 二、数据库vs数据仓库 1、数据库 通常指的是 数据库软件 ,比如mysql,oracle,sqlserver,db2 数据库应用场景1:联机事务处理 数据库软件用的最多的应用场景

Python数据分析在互联网寒冬下,数据分析师还吃香吗?

荒凉一梦 提交于 2020-02-05 22:08:13
伴随着移动互联网的飞速发展,越来越多用户被互联网连接在一起,用户所积累下来的数据越来越多,市场对数据方面人才的需求也越来越大,由此也带火了如数据分析、数据挖掘、算法等职业,而作为其中入门门槛相对较低、工资高于大多传统行业岗位的数据分析一职,则成为了许多想转行进入数据领域的同学的首要选择。 那么在现在的互联网寒冬下,数据分析岗位是什么行情呢?不同城市对该岗位的需求又是怎样的?岗位的具体薪资状况咋样?有哪些工作要求?大公司和小公司在招聘职位的要求上有什么特点?带着这些疑惑,我爬取了拉勾网上一些主要城市的数据分析岗位信息,带你看看互联网寒冬下,数据分析岗位的市场现状。 Ps:很多人在学习Python的过程中,往往因为没有好的教程或者没人指导从而导致自己容易放弃,为此我建了个Python交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面有最新Python教程项目可拿,不懂的问题多跟里面的人交流,都会解决哦! 各城市对数据分析岗位的需求量 从招聘信息的所在地来看,对数据分析师岗位需求量较大的是四个一线城市,其中北京和上海分别位列前两位。除了北上广深和杭州外,其他热门城市的需求并不大,所以,如果你想找数据分析相关的工作,最好还是去一线城市寻找相应的机会。 不同细分领域对数据分析岗的需求量 国内大数据行业发展得如火如荼,几乎在各行各业都能见到数据分析的身影

葡萄酒数据分析

为君一笑 提交于 2020-02-05 07:06:49
引入包,查看数据 import pandas as pd import matplotlib.pyplot as plt # 支持中文 plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号 read_df = pd.read_csv('winequality-red.csv',sep=';') white_df = pd.read_csv('winequality-white.csv',sep=';') white_df.head() read_df.head() 新增颜色列 import numpy as np # 为红葡萄酒数据框创建颜色数组 color_red = np.repeat(0,read_df.shape[0]) # 为白葡萄酒数据框创建颜色数组 color_white = np.repeat(1,white_df.shape[0]) read_df['color'] = color_red white_df['color'] = color_white 合并红白葡萄酒数据集 wine_df = read_df.append(white_df) wine_df.info() wine_df.to