前言:根据机器学习的数据集的目标值是离散or连续,处理的算法包含分类、回归两大类
sklearn的使用教程 https://www.jianshu.com/p/6ada34655862
目录
分类算法
k近邻算法
算法思想:一个样本与数据集中的k个样本最相似,如果k个样本中的大多数属于一个类别,则认识该样本属于这个类别;
最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。n维空间中两个点x1(x11,x12,…,x1n)与 x2(x21,x22,…,x2n)间的欧氏距离
实现:
https://www.cnblogs.com/xiaotan-code/p/6680438.html
from sklearn.neighbors import KNeighborsClassifier
# 导包
knn = KNeighborsClassifer()
# 定义一个分类器对象
knn.fit([特征值],[目标值])
# 调用模型
朴素贝叶斯
算法思想 :https://blog.csdn.net/Growing_hacker/article/details/89790230
实现
from sklearn.naive_bayes import MultinomialNB
# 导包
clf = MultinomialNB()
# 实例化分类器
clf.fit([特征值],[目标值])
# 调用训练模型
https://blog.csdn.net/Growing_hacker/article/details/89790230
决策树、随机森林
算法思想:根据信息熵以及信息增益的大小,找出分类的标准
https://blog.csdn.net/Growing_hacker/article/details/89816012
实现
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
# 导包
分类回归
算法思想:解决二分类问题,线性回归的结果作为分类回归的输入,利用最大似然损失函数寻找权值,不同的阈值得出不同预测结果
实现
from sklearn.linear_model import LogisticRegression
# 导包
classifier = LogisticRegression(random_state=37)
# 实例分类器对象
classifier.fit(X, y)
# 回归分类器进行训练
回归算法
线性回归
算法思想:根据损失函数,不断调整权值使损失函数的值变小;特征方程or梯度下降的方式求解权值
https://www.cnblogs.com/geo-will/p/10468253.html
实现
from sklearn.linear_model import LinearRegression
来源:CSDN
作者:Growing_hacker
链接:https://blog.csdn.net/Growing_hacker/article/details/104648562