Scikit-Learn机器学习入门

荒凉一梦 提交于 2020-03-08 16:19:53

现在最常用的数据分析的编程语言为R和Python。每种语言都有自己的特点,Python因为Scikit-Learn库赢得了优势。Scikit-Learn有完整的文档,并实现很多机器学习算法,而每种算法使用的接口几乎相同,可以非常快的测试其它学习算法。

Pandas一般和Scikit-Learn配合使用,它是基于Numpy构建的含有更高级数据结构和工具的数据统计工具,可以把它当成excel。

加载数据

首先把数据加载到内存。下载UCI数据集:

 

数据标准化

在开始应用学习算法之前,应首先对数据执行标准化,这是为了确保特征值的范围在0-1。对数据进行预处理:

 

分类

ExtraTreesClassifier(基于树):

LogisticRegression:

 

机器学习算法

Logistic regression

通常用来解决分类问题(binary),但是也支持多个分类。这个算法会给出属于某一分类的概率:

朴素贝叶斯-Naive Bayes

这也是广为人知的机器学习算法,用来学习数据分布的密度,在多分类问题中可以提供高质量的预测结果。

KNN算法(K-Nearest Neighbours)

它通常用在更复杂分类算法的一部分,它在回归问题中可以提供很好的结果。

决策树-Decision Trees

能很好的处理回归和分类问题。

支持向量机-Support Vector Machines

 

Scikit-Learn还提供了一堆更复杂的算法,包括clustering,Bagging 和 Boosting。

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!