Scikit-Learn Qucik Start(文档翻译)
写在前面:今天是参加DataCastle比赛的第4天,在我妄图手写Boosting然而效率低的一B的时候,用sklearn的RF(RandomForest)没有优化参数、没有特征提取的情况下,居然都比我自己写的AdaBoost要好 ,所以我们目前的工作从编码实现转到了对sklearn的熟悉,然则求一中文文档而不得,英文渣渣的我也只能自己来翻译了。一则刚入ML坑的新人也在学习过程,二则英语渣渣星人有些我可能自己也看不懂,翻译不到位忘见谅了。 An introduction to machine learning with scikit-learn 1 机器学习:问题设定 一般来说,机器学习问题可以这样来理解:我们有n个 样本 (sample)的数据集,然后去预测未知数据的属性。如果描述每个样本的数字不只一个数字,比如一个多维的条目(也叫做 多变量数据 (multivariate data)),那么这个样本就有多个属性或者 特征 。 我们可以将学习问题分为以下几类: 监督学习(supervised learning)是指样本数据中包括了我们想预测的属性,监督学习问题有以下两类: 分类(classification):样本具有两个或多个类别,我们希望通过从已标记类别的数据学习,来预测未标记数据的分类。例如,识别手写数字就是一个分类问题,其目标是将每个输入向量对应到有穷的数字类别