推荐学习地址:https://www.imooc.com/learn/1178
以下是自己学习的主要内容
1.数据分析及可视化概念
数据分析指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程
收集数据---提取信息 ---形成结论
数据可视化:使用图形化展示数据,直观的观测数据之间的关系即为数据可视化过程
2.数据分析可视化流程
定义分析目标---数据采集及预处理---数据分析挖掘---数据可视化
数据清洗:是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检验数据一致性、处理无效值和缺省值等
3.常见的数据可视化形式及工具
常见的可视化形式:
基础:统计图(直方图、折线图、饼图)
分布图(热力图、散点图、气泡图)
常用工具:
分析工具:pandas、Scipy、numpy、sklearn
绘图工具:matplotlib、Pychart、reportlab
平台工具:Jupyter Notebook、Pycharm
基础图:
直方图:可直观的传递数据的分布情况。函数:plt.hist(data, bins)
条形图:展现同类数据的大小以及数据之间的差别。函数:plt.bar(data,datatype)
折线图:通常显示随时间变化的连续数据,因此非常适用显示数据在周期内的趋势。函数:plt.plot(X,Y)
饼图:常用于显示一个数据系列中各项的大小和各项总和的比例。函数:plt.pie(data,datatype)
散点图:是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。函数:plt.scatter(data_X, data_Y)
箱线图:又称为盒须图、盒式图,是一种用作显示一组数据分散情况的统计图,主要用于反映原始数据的特征,主要有展示图值有:上边缘 下边缘 中位数 上四分位数 下四分位数 异常值(点)。函数:plt.boxplot(data)
极线图:用于表示极坐标下数据的分布情况,多用于显示具有一点周期性的数据。函数:plt.subplot(111, projection = 'polar').plot(theta, r)
阶梯图:是一种以无规律、间歇性阶跃的方式表达数值变化的方法,它不仅可以像折线图反映数据发展的趋势,还可以反映数据状态的持续时间。函数:plt.step(year, height)
高级图:
堆积图:常用于综合展示不同分类的指标趋势以及总和的趋势。函数:plt.bar(datatype, data_y, bottom = data_x, color = 'r', label = 'name')
分块图:可将不同数据集分块展示,方便对比同类数据某一具体属性的高低。函数:plt.bar(datatype, data_y, bottom = data_x, color = 'r', label = 'name')
气泡图:可用来展示是三个变量之间的关系。函数:plt.bar(x, data_x, label="name", fc = 'r', width = width)
图例展示地址: