sharex

机器学习实用指南:如何从数据可视化中发现数据规律?

£可爱£侵袭症+ 提交于 2020-12-17 10:55:34
机器学习实用指南:如何从数据可视化中发现数据规律? 点击上方“ AI有道 ”,选择“置顶”公众号 重磅干货,第一时间送达 本系列为《Scikit-Learn 和 TensorFlow 机器学习指南》的第四讲。上文请见下面这篇文章: 机器学习实战指南:如何入手第一个机器学习项目? 目前为止,我们已经对数据有了初步的认识,大体上明白了我们要处理的数据类型。现在,我们将进入更深入的研究。 首先,确保已经划分了测试集并放置一边,我们只会对训练集进行操作。另外,如果训练集很大,可以从中采样一些作为探索集(exploration set),方便进行快速处理。在我们这个例子中,数据集比较小,所以直接在训练集上处理即可。我们还要创建一个训练集的复制副本,这样就不会改动原来的训练集了。 housing = strat_train_set.copy() 1. 地理数据可视化 因为数据集中包含了地理位置信息(经纬度),所以创建所有地区的散点图来可视化数据是个好主意(如下图所示)。 这看起来有点像加州,但是很难看出任何规律。我们设置参数 alpha = 0.1,这样就更容易看出数据点的密度了(如下图所示)。 housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1) 现在,我们可以很清晰地看出这些密度较大的区域了。 通常来说

Python数据可视化基础讲解

牧云@^-^@ 提交于 2020-08-06 22:20:53
前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:爱数据学习社 首先,要知道我们用哪些库来画图? matplotlib python中最基本的作图库就是matplotlib,是一个最基础的Python可视化库,一般都是从matplotlib上手Python数据可视化,然后开始做纵向与横向拓展。 Seaborn 是一个基于matplotlib的高级可视化效果库,针对的点主要是数据挖掘和机器学习中的变量特征选取,seaborn可以用短小的代码去绘制描述更多维度数据的可视化效果图。 其他库还包括 Bokeh(是一个用于做浏览器端交互可视化的库,实现分析师与数据的交互) Mapbox(处理地理数据引擎更强的可视化工具库)等等 本篇文章主要使用matplotlib进行案例分析 确定问题,选择图形 业务可能很复杂,但是经过拆分,我们要找到我们想通过图形表达什么具体问题。分析思维的训练可以学习《麦肯锡方法》和《金字塔原理》中的方法。 这是网上的一张关于图表类型选择的总结。 在python中,我们可以总结为以下四种基本视觉元素来展现图形: 点:scatter plot 二维数据,适用于简单二维关系 线:line plot 二维数据,适用于时间序列 柱状:bar plot 二维数据,适用于类别统计 颜色:heatmap

picgo+sharex写markdown笔记

穿精又带淫゛_ 提交于 2020-01-05 12:06:18
利用PicGo和ShareX来打造更舒服的笔记体验 就我个人来说,写博客最大的困扰就是文章中的插图。 我起初是自己买服务器,然后自建博客,但无奈那些个的磁盘实在是太小,考虑到以后长期写文和博客迁移等等问题,我选择了使用图床,但是苦于没有合适的图床管理工具,导致我每次都得先把图片上传到阿里云OSS,然后再拿着链接火来写文,一来二去,写作积极性备受打击,太麻烦了。 但是,在多方寻求解决方案后,我终于找到了我自己用着最为顺手的一套组合,那就是PicGo加上ShareX,废话不多说,先简单了解下这两大件是干啥的。 PicGo: 官网地址 一个图床上传管理软件,支持mac、win和linux,同时它支持的图床也非常之多,差不多涵盖了目前常见的所有图床 ShareX: 官网地址 这个软件呢,我就是把它当作一个很牛逼的截图工具来使用,配置好快捷键之后配合PicGo直接上传 另外,软件是支持中文的哦! 解决了图床问题,那写文不就爽歪歪,我用的编辑器就是简简单单的vscode,配上OneDrive自动上传到云端,简直不要太舒服 来源: 51CTO 作者: wx59ea08c9056e9 链接: https://blog.51cto.com/13418825/2464391