散点图

Pyecharts绘制全球流向图

你。 提交于 2020-01-07 19:08:23
安装 pip(3) install pyecharts 此文版本为v1.6 此文版本为v1.6 此文版本为v1.6 效果图 使用Pycharts绘制一个如上图类似的全球流向图。 pyecharts里的地理图标总共有三种— Geo:地理坐标系,Map:地图,Bmap:百度地图。 Map地图可以绘制全球地图,但不能绘制带有流向的效果图,所以此处需要使用Geo地理坐标系图。 Geo图的类型有scatter(散点图),effectScatter(涟漪散点图),heatmap(热力图),lines(流向图)。 散点图不用说,就是正常的散点图。涟漪散点图类似带有波纹的散点图,像水的涟漪效果一样。 效果如下: 热力图也不用说,就是正常的热力图效果。 我们需要绘制的是流向图。 # 导入Geo包,注意1.x版本的导入跟0.x版本的导入差别 from pyecharts.charts import Geo # 导入配置项 from pyecharts import options as opts # ChartType:图标类型,SymbolType:标记点类型 from pyecharts .globals import ChartType, SymbolType geo = Geo() # 地图类型,世界地图可换为world geo.add_schema(maptype="china") #

机器学习算法—KNN算法原理

人走茶凉 提交于 2020-01-07 02:49:50
机器学习算法—KNN算法原理 概述: KNN算法一般也会经常被称为K邻近算法,其核心思想是根据训练集中的样本分类计算测试集中样本与训练集中所有样本的距离,根据所设定的K值选取前K个测试样本与训练样本最近的结果,结果中大多数训练样本所处在的类别即是本测试样本的类别。因训练样本的分类结果为已知因此KNN算法属于有监督学习算法。 算法原理: 1、以下图样本散点图展示训练集的整体分布情况 从散点图中可以发现训练集的数据分类数量为3个类别,分别为蓝色类别、红色类别和黄色类别,训练样本总数为15个。 2、导入第一个测试样本 3、需要根据已知的训练样本分类结果判断测试样本的类别,因此计算测试样本与所有训练样本的距离 因训练样本数量为15,所以计算完成的距离参数为15个。 4、K值是KNN算法中唯一需要设定的参数,假定K值为3则在15个距离参数中选择最近的3个 统计3个距离中大部分训练样本所处的分类即为本测试样本的分类,本次分类中距离最近的3个训练样本有2个属于红色类别,因此本测试样本被分类为红色 5、对下一个测试样本以相同方式进行距离计算和分类 注意事项: 1、K的取值尽量为奇数以确保距离计算结果必定会有一个K个距离中包括较多的类别,比如例子中取3,则3个中有2个训练样本为红色类别以此判断测试样本属于红色类别。如K取4产生下图中的情况 4个距离参数中,2个训练样本为红色类别

echarts地图城市散点图

微笑、不失礼 提交于 2020-01-06 19:47:28
给每个城市自定义坐标,根据每个城市的value值所在范围给每个坐标点设置不同的颜色,鼠标悬停显示tip,tip值为城市名称以及value。 效果图: demo: 点击查看 代码: <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> <style>#charts{width:600px;height:600px;}</style> </head> <body> <div id="charts"></div> </body> <script src="../../../public/js/echarts.min.js"></script> <script src="china.js"></script> <script> var mycharts = echarts.init(document.getElementById('charts')) //自定义城市坐标菜单 var geoCoordMap = { "海门":[121.15,31.89], "鄂尔多斯":[109.781327,39.608266], "招远":[120.38,37.35], "舟山":[122.207216,29.985295], "齐齐哈尔":[123.97,47.33], "盐城":[120.13,33.38], "赤峰

echarts地图城市散点图

坚强是说给别人听的谎言 提交于 2020-01-05 00:23:59
给每个城市自定义坐标,根据每个城市的value值所在范围给每个坐标点设置不同的颜色,鼠标悬停显示tip,tip值为城市名称以及value。 效果图: demo: 点击查看 代码: <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> <style>#charts{width:600px;height:600px;}</style> </head> <body> <div id="charts"></div> </body> <script src="../../../public/js/echarts.min.js"></script> <script src="china.js"></script> <script> var mycharts = echarts.init(document.getElementById('charts')) //自定义城市坐标菜单 var geoCoordMap = { "海门":[121.15,31.89], "鄂尔多斯":[109.781327,39.608266], "招远":[120.38,37.35], "舟山":[122.207216,29.985295], "齐齐哈尔":[123.97,47.33], "盐城":[120.13,33.38], "赤峰

pychars的使用

痴心易碎 提交于 2020-01-03 03:01:30
1 | 0 安装 pyecharts 兼容 Python2 和 Python3。目前版本为 0.1.2 pip install pyecharts 2 | 0 入门 首先开始来绘制你的第一个图表 from pyecharts import Bar bar = Bar("我的第一个图表", "这里是副标题") bar.add("服装", ["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子"], [5, 20, 36, 10, 75, 90]) bar.show_config() bar.render() Tip: 可以按右边的下载按钮将图片下载到本地 add() 主要方法,用于添加图表的数据和设置各种配置项 show_config() 打印输出图表的所有配置项 render() 默认将会在根目录下生成一个 render.html 的文件,支持 path 参数,设置文件保存位置,如 render(r"e:\my_first_chart.html"),文件用浏览器打开。 默认的编码类型为 UTF-8,在 Python3 中是没什么问题的,Python3 对中文的支持好很多。但是在 Python2 中,编码的处理是个很头疼的问题,暂时没能找到完美的解决方法,目前只能通过文本编辑器自己进行二次编码,我用的是 Visual Studio Code,先通过 Gbk

pandas 常见绘图总结

China☆狼群 提交于 2019-12-26 17:22:28
pandas 常见绘图总结 文章目录 pandas 常见绘图总结 前言 一 设置字体和显示中文 二 pandas 可视化(0.25.3版本) 1 线形图 2 条形图 2.1 垂直条形图 2.2 水平条形图 3 饼图 4 散点图 4.1 普通散点图 4.2 气泡图 4.3 多组散点图 5 面积图 6 箱线图 7 直方图 8 核密度曲线 9 hexbin(六边形图) 前言 pandas的强大让人毋庸置疑,一个集数据审阅、处理、分析、可视化于一身的工具,非常好用。 大家都知道,Matplotlib 是众多 Python 可视化包的鼻祖,也是Python最常用的标准可视化库,其功能非常强大,同时也非常复杂,想要搞明白并非易事。所幸pandas本身就有数据可视化的功能已经可以满足我们大部分的要求了,也就省下了我们很多自己使用 如 Matplotlib 来数据可视化的工作。 一 设置字体和显示中文 Pandas在绘图时,会显示中文为方块,主要原因有二: matplotlib 字体问题,seaborn 字体问题。 没有中文字体,所以我们只要手动添加中文字体的名称就可以了,不过并不是添加我们熟悉的“宋体”或“黑体”这类的名称,而是要添加字体管理器识别出的字体名称,matplotlib自身实现的字体管理器在文件font_manager.py中,自动生成的可用字体信息在保存在文件fontList

五分钟入门数据可视化

时光毁灭记忆、已成空白 提交于 2019-12-21 04:20:02
在数据科学中,有多种工具可以进行可视化。在本文中,我(毛利)展示了使用Python来实现的各种可视化图表。 Matplotlib是Python中最常用的可视化工具之一,可以非常方便地创建海量类型的2D图表和一些基本的3D图表。 主要的可视化视图 比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图; 联系:查看两个或两个以上变量之间的关系,比如散点图; 构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图; 分布:关注单个变量,或者多个变量的分布情况,比如直方图。 单变量可视化视图: 一次值关注一个变量。如我们一次只关注身高变量,来看身高的取值分布,而暂时忽略其他变量。 多变量可视化视图: 可以让一张图同时查看两个以上的变量,比如“身高”和“年龄”,你可以理解是同一个人的两个参数,这样在同一张图中可以看到每个人的“身高”和“年龄”的取值,从而分析出这两个变量之前是否存在某种联系。 离散变量和连续变量: 离散变量是指其数值只能用自然数或整数单位计算的则为离散变量. 例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得. 反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值. 针对离散变量我们可以使用常见的条形图和饼图完成数据的可视化工作,那么

02-matplotlib-散点图

你离开我真会死。 提交于 2019-12-19 23:08:03
1 import numpy as np 2 import matplotlib.pyplot as plt 3 4 ''' 5 散点图显示两组数据的值,每个点的坐标位置的值决定 6 用户观察两种变量的相关性: 7 正相关 8 负相关 9 不相关 10 11 ''' 12 13 # 正相关 14 height = [161,170,174,165,182,175] 15 weight = [50,65,70,62,81,75] 16 plt.scatter(height,weight) 17 plt.show() 18 19 20 # 不相关 21 N = 1000 22 x = np.random.randn(N) 23 y = np.random.randn(N) 24 plt.scatter(x,y) 25 plt.show() 26 27 28 # 散点图的外观 29 ''' 30 c 颜色 31 s 点(面积)大小 32 alpha 透明度 33 值的范围[0,1] 34 通过调节透明度,来观察点的集中性 35 marker 点形状 36 ''' 37 38 39 # 练习 40 ''' 41 使用000001.csv的数据 42 计算最高价 和开盘价之差 43 绘出前后两天diff的散点图, 研究是否具有相关性 44 45 ''' 46 height,open = np

数据分析07 /matplotlib绘图

Deadly 提交于 2019-12-14 11:25:54
目录 数据分析07 /matplotlib绘图 1. 绘制线性图:plt.plot() 2. 绘制柱状图:plt.bar() 3. 绘制直方图:plt.hist() 4. 绘制饼状图:pie() 5. 绘制散点图:scatter() 数据分析07 /matplotlib绘图 1. 绘制线性图:plt.plot() 绘制单条线形图 import matplotlib.pyplot as plt import numpy as np x = [1,2,3,4,5] y = [5,4,3,2,1] plt.plot(x,y) 绘制抛物线形图 x = np.linspace(-np.pi,np.pi,40) y = x**2 plt.plot(x,y) 在一个坐标系中绘制多条曲线 plt.plot(x,y) plt.plot(x-1,y+2) 给x,y设定标识 plt.plot(x,y) plt.xlabel('name') plt.ylabel('score') plt.title('Performance trends') 设置图例大小 plt.figure(figsize=(10,10)) plt.plot(x,y) 设置图例legend() plt.plot(x,y,label='s1') plt.plot(x-1,y+2,label='s2') plt.legend(loc=4)

链家网二手房数据分析(承接上篇爬虫)

杀马特。学长 韩版系。学妹 提交于 2019-12-08 21:22:27
import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rcParams[ 'font.sans-serif' ]=[ 'SimHei' ] #用来正常显示中文标签 path= 'F:/python/从零开始学python网络爬虫/链家网/lianjia-3.xls' lj=pd.read_excel(path) ''' 对整体数据预览,做个大概统计 ''' print(lj.head()) #前5行 print(lj.tail()) #后5行 print(lj.columns) #列序列 print(lj.index) #行索引 print(lj.values) #值 print(lj.describe()) #汇总统计 print(lj[[ '面积(平方)' , '元每平方' , '价格(万)' ]]) #提取某几列 print(lj[ 5 : 9 ]) #切片提取某一段行 print(lj.duplicated()) #是否是重复行 print(lj.drop_duplicates()) #去重(其实没有重复的) ''' 单独对价格(万)分析,平均值,排序 散点图,价格区间-数量直方图 ''' print(lj[ '价格(万)' ]) #提取列,Series格式 print(lj[