散点图

数据可视化笔记整理03

给你一囗甜甜゛ 提交于 2019-12-06 14:43:21
目录 1.学习目的 2前言 3.对比型数据可视化 3.1 柱状图 3.2 条形图 3.3 面积图 3.4 气泡图 3.5 单词云图 3.6 雷达图/星状图 4.分布型数据可视化 4.1 直方图 4.2 茎叶图 4.3 箱线图 4.4 概率密度图 4.5 散点图/气泡图 4.6 热力图 4.7 地图 5.总结 6.作业 6.1 电商 6.2 公司店铺月度收入,成本和综合评分 「对比型数据」和「分布型数据」的可视化 1.学习目的 了解数据之间的对比关系,可以通过哪些「标记+视觉通道」映射,从而来表现差异; 熟练掌握表示数据对比关系的图形类型,以及这些图形的适用场景、异同; 熟悉描述性统计的相关内容,掌握分布型数据可视化的常用图表和适用场景; 实践:给定2个数据集,选择合适的图表并进行可视化呈现,实现工具不限; 2前言 「对比型数据」:对比两组或两组以上数据的差异。 「分布型数据」:研究数据分布的集中趋势、离散程度、偏态和峰度等。 3.对比型数据可视化 一般来说,对比多组数据之间的差异,我们是通过不同的标记和视觉通道体现出来的. 高度差异/宽度差异:柱状图、条形图。 面积差异:面积图、气泡图。 字号差异:单词云图。 形状差异:星状图。 3.1 柱状图 柱状图可以使离散时间数据可视化的方式之一,系列值的数据类型是时间. 柱状图除了可以用于离散时间数据的可视化

bokeh

我与影子孤独终老i 提交于 2019-12-06 06:40:58
一 基本操作 import numpy as np import pandas as pd import matplotlib.pyplot as plt % matplotlib inline # 在notebook中创建绘图空间 from bokeh.plotting import figure,show,output_file # 导入图表绘制、图标展示模块 from bokeh.io import output_notebook # 导入notebook绘图模块 #output_notebook() # notebook绘图命令 #output_file("line.html") # notebook绘图命令,创建html文件 # 运行后会弹出html窗口 p = figure(plot_width=400, plot_height=400) # 创建图表,设置宽度、高度 p.circle([1, 2, 3, 4, 5], [6, 7, 2, 4, 5], size=20, color="navy", alpha=0.5) # 创建一个圆形散点图 show(p) # 绘图 # 创建图表工具 # figure() df = pd.DataFrame(np.random.randn(100,2),columns = ['A','B']) # 创建数据 p = figure

关于jitter()函数

﹥>﹥吖頭↗ 提交于 2019-12-06 06:38:16
http://f.dataguru.cn/thread-12107-1-1.html https://www.cnblogs.com/wangshenwen/p/3235870.html 噪声函数 jitter(x, factor=1, amount = NULL) 可以防止数据重复,在ks.test()检验的时候可以消除误差,在大量数据的散点图中可以避免散点重叠。jitter(x, k)中x是原数据,k与浮动范围有关。 jitter(x, factor=1, amount = NULL)函数的参数变化有点复杂,自己试验了下,最简单的可以用 jitter(x, factor=0, amount = k) , 其中k是非负实数,k=0时就等于x, 这时 等价于x + runif(length(x), -k, k) 。factor=1, amount = NULL等情况还没搞明白,请知道的补充哈,谢谢! 我用jitter(t),也不会出“Kolmogorov - Smirnov检验里不应该有连结”这样的警告了。 来源: https://www.cnblogs.com/HISAK/p/11965857.html

seaborn总结

不羁的心 提交于 2019-12-06 02:59:23
Seaborn 数据可视化基础 介绍 Matplotlib 是支持 Python 语言的开源绘图库,因为其支持丰富的绘图类型、简单的绘图方式以及完善的接口文档,深受 Python 工程师、科研学者、数据工程师等各类人士的喜欢。Seaborn 是以 Matplotlib 为核心的高阶绘图库,无需经过复杂的自定义即可绘制出更加漂亮的图形,非常适合用于数据可视化探索。 知识点 关联图 类别图 分布图 回归图 矩阵图 组合图 Seaborn 介绍 Matplotlib 应该是基于 Python 语言最优秀的绘图库了,但是它也有一个十分令人头疼的问题,那就是太过于复杂了。3000 多页的官方文档,上千个方法以及数万个参数,属于典型的你可以用它做任何事,但又无从下手。尤其是,当你想通过 Matplotlib 调出非常漂亮的效果时,往往会伤透脑筋,非常麻烦。 Seaborn 基于 Matplotlib 核心库进行了更高阶的 API 封装,可以让你轻松地画出更漂亮的图形。Seaborn 的漂亮主要体现在配色更加舒服、以及图形元素的样式更加细腻,下面是 Seaborn 官方给出的参考图。 Seaborn 具有如下特点: 内置数个经过优化的样式效果。 增加调色板工具,可以很方便地为数据搭配颜色。 单变量和双变量分布绘图更为简单,可用于对数据子集相互比较。

matplotlib两种画散点图的方式

半世苍凉 提交于 2019-12-06 02:22:32
对于matplotlib.pyplot( as plt ) 先输入主体数据部分: import numpy as np import matplotlib.pyplot as plt X_train = np.array([[1,2,3],[2,3,4],[2,2,1],[3,2,2]]) X_test = np.array([[1,1,1],[2,1,1]]) y_train = np.array([1,1,-1,1]) y_test = np.array([1,-1]) 我们先做二维图:(取前两维) 首先容易想到plt.plot, 但这个是默认生成折线图的: plt.plot(X_train[:,0],X_train[:,1]) plt.show() 但如果我们对线条指定为o的话: plt.plot(X_train[:,0],X_train[:,1],"ro") plt.show() 令一种做散点图的方式就是,用scatter: plt.scatter(X_train[:,0],X_train[:,1]) plt.show() 从上可以看到,除了我指定了的颜色外,其他均一致! ------------------------------------------------------------------------------------------------------

国民经济数据可视化

ⅰ亾dé卋堺 提交于 2019-12-05 05:29:24
import numpy as np import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif'] = 'Arial Unicode MS' ## 设置中文显示 plt.rcParams['axes.unicode_minus'] = False data = np.load('./data/国民经济核算季度数据.npz') name = data['columns']## 提取其中的columns数组,视为数据的标签 values = data['values']## 提取其中的values数组,数据的存在位置 label = ['第一产业','第二产业','第三产业']## 刻度标签 plt.figure(figsize=(6,5))## 设置画布 plt.bar(range(3),values[-1,3:6],width = 0.5)## 绘制散点图 plt.xlabel('产业')## 添加横轴标签 plt.ylabel('生产总值(亿元)')## 添加y轴名称 plt.xticks(range(3),label) plt.title('2017年第一季度各产业国民生产总值直方图')## 添加图表标题 plt.savefig('.

为什么你成不了数据分析高手?可能是缺少这个思维

非 Y 不嫁゛ 提交于 2019-12-04 07:58:04
在讲前三章基础思维的时候,有读者反映文章过于理论,没有实际的操作讲解,那么今天我就在讲解数据思维的同时也会附上案例教程,以供大家参考学习。 话不多说,我们今天要讲的是 矩阵思维 ,其实矩阵思维不仅仅是用在数据分析领域,在财务、业务、销售、自媒体甚至生活中都有很广泛的应用,比如我们经常听到的自媒体矩阵、线下实体矩阵、流量矩阵等等,甚至有可能在你小区卖早点的都会搞营销矩阵。 比如说,安索夫矩阵思维,根据产品和市场将思维分为四种: 市场渗透、市场开发、产品延伸、多元化经营 。这不仅可以应用在企业经营上,更可以套用在个人的职业发展上,比如: 市场渗透:.吃透数据分析,让自己成为公司的数据分析专家 产品延伸:你的数据分析能力被别的产品小组发现了,也请你为他们做数据分析 市场开发:你在数据分析技能不断长进的同时,还掌握了行为设计 多角化:你的数据分析和行为设计能力达到了业界认可,有外企邀请你为他们做指导 其实,在百度百科中,矩阵更多是一种数学概念,而在数据分析中,它更多的是代表一种营销思维。有的人用它来设计产品,推行多元化品牌;有的人用它来聚集流量,占领细分市场。除了安索夫矩阵,今天我要介绍的则是数据分析中另一个十分常用的模型——波士顿矩阵。 一、什么是波士顿矩阵? 波士顿矩阵也已经是老生常谈了,具体的定义我们也不用太过钻研,我们只要明白波士顿矩阵关注的核心就是两个维度——

相关分析流程总结

蓝咒 提交于 2019-12-04 05:56:04
为了便于理解,我们先简单介绍下相关分析,然后按照分析流程顺序,对每一步可能会涉及的问题进行简要说明。 相关分析 使用相关分析,通常是研究两个变量的相关性情况。比如学习成绩和听课质量的关系;员工敬业度与薪资的关系等等。 1.数据类型 相关分析的适用范围很广,理论上讲,凡是考察两个变量相关性,都可以叫做相关分析。 但依据习惯,我们通常说的相关分析,多指的是 两个定量数据 之间的 简单相关分析 ,这就要求两个变量都是定量数据,即选项数字大小要可比较,且有实际意义。 如果两个数据均为定类数据,则不可以直接用相关分析,而应该使用卡方分析测量相关性(准确说应该是差异分析)。 如果一个是定类数据,一个是定量数据,则应该使用方差分析。 这种误用常见于分析 背景信息题与核心研究题项的相关情况。 2. 正态性 相关分析要求数据服从正态分布,因此分析前需要检验数据的正态性。 正态性有多种检验方法,常见方法如:正态图、正态性检验、P-P图/Q-Q图等。 正态性的判断标准可以查看之前的文章: 多种判断正态性的方法详细说明 ​ 由于相关分析对正态性要求比较宽松,即使违反计算结果也比较稳健,只要数据基本满足正态即可。如果数据完全不正态,则可以用Spearman相关系数。 3. 查看线性趋势 当两个定量数据在散点图上的散点呈现直线趋势时,就可以认为两者存在直线相关趋势,这也是相关分析的一个基本前提。 SPSSAU

数据可视化之Matplotlib学习

眉间皱痕 提交于 2019-12-03 11:48:37
推荐学习地址: https://www.imooc.com/learn/1178 以下是自己学习的主要内容 1.数据分析及可视化概念 数据分析指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程    收集数据---提取信息 ---形成结论 数据可视化:使用图形化展示数据,直观的观测数据之间的关系即为数据可视化过程 2.数据分析可视化流程   定义分析目标---数据采集及预处理---数据分析挖掘---数据可视化   数据清洗 :是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检验数据一致性、处理无效值和缺省值等 3.常见的数据可视化形式及工具 常见的可视化形式:   基础:统计图(直方图、折线图、饼图)      分布图(热力图、散点图、气泡图) 常用工具:   分析工具: pandas 、Scipy、numpy、sklearn   绘图工具: matplotlib 、Pychart、reportlab   平台工具: Jupyter Notebook 、Pycharm 基础图:   直方图:可直观的传递数据的分布情况。函数:plt.hist(data, bins)   条形图:展现同类数据的大小以及数据之间的差别。函数:plt.bar(data,datatype)   折线图:通常显示随时间变化的连续数据