机器学习之数据分析
熟话说,'巧妇难为无米之炊',数据和特征就是'米',模型和算法则是'巧妇',没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出,为了更好的使用模型,必须先对数据有个正确的认识,本博将对数据分析的三种方法(描述性统计,数据可视化和相关性系数)进行总结,为数据预处理准备 1. sklearn数据集类型 - 自带的小数据集:sklearn.datasets.load_<name> 鸢尾花数据集:load_iris() 乳腺癌数据集:load_breast_cancer() 手写数字集:load_digits() - 可在线下载的数据集:sklearn.datasets.fetch_<name> - 计算机生成的数据集:sklearn.datasets.make_<name> - svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file() - 从买了data.org在线下载获取数据集:sklearn.datasets.fetch_mldata() 2. 数据分析 下面将以房价数据为例进行说明这个数据分析过程 2.1 获取数据 import pandas as pd housing = pd.read_csv('./datasets/housing/housing.csv') 2.2 查看列标信息 print