机器学习实用指南:如何从数据可视化中发现数据规律?
机器学习实用指南:如何从数据可视化中发现数据规律? 点击上方“ AI有道 ”,选择“置顶”公众号 重磅干货,第一时间送达 本系列为《Scikit-Learn 和 TensorFlow 机器学习指南》的第四讲。上文请见下面这篇文章: 机器学习实战指南:如何入手第一个机器学习项目? 目前为止,我们已经对数据有了初步的认识,大体上明白了我们要处理的数据类型。现在,我们将进入更深入的研究。 首先,确保已经划分了测试集并放置一边,我们只会对训练集进行操作。另外,如果训练集很大,可以从中采样一些作为探索集(exploration set),方便进行快速处理。在我们这个例子中,数据集比较小,所以直接在训练集上处理即可。我们还要创建一个训练集的复制副本,这样就不会改动原来的训练集了。 housing = strat_train_set.copy() 1. 地理数据可视化 因为数据集中包含了地理位置信息(经纬度),所以创建所有地区的散点图来可视化数据是个好主意(如下图所示)。 这看起来有点像加州,但是很难看出任何规律。我们设置参数 alpha = 0.1,这样就更容易看出数据点的密度了(如下图所示)。 housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1) 现在,我们可以很清晰地看出这些密度较大的区域了。 通常来说