机器学习-常见的监督学习模型

纵饮孤独 提交于 2020-10-28 08:57:45

机器学习可以分为三大类:监督学习、非监督学习、强化学习。

今天学习监督学习模型,根据输出是连续的还是离散的,又分为 回归问题 和 分类问题。 

监督学习的训练数据,都是带‘答案’的,通过输入和答案之间的对应关系,获取其中的规则。

1,朴素贝叶斯分类器 Naive Bayes Classifier

假设样本的特征(被观察现象的一个可以测量的属性)在给定分类的条件下是相互独立的。

选择重要的特性对于传统的机器学习方法至关重要。

简单来讲这就是个概率计算 假设输入 X = (x1,x2,...,xn) 在给定 x的条件下 分类Ck的概率: P(Ck|X) = ∏P(xi|Ck)P(Ck) / P(X)

解释:给定X, P(X) 是一个固定的归一化的常量,因此可以忽略;P(xi|Ck) 和 P(Ck) 是通过训练数据集获取计算来的;

这样就可以计算给定条件X下的各个分类的概率,取概率最大的作为分类结果。

需要注意个细节: 如果 Xi 过多,相乘可能出现下溢(0),可以把乘法转为取对数相加;对于训练集中未出现的值的概率,可以忽略。

2,逻辑回归 Logistic Regression

线性回归模型: y = wTx + b

这个输出范围是 负无穷 到 正无穷

要转换为分类问题,需要使用 Sigmoid 函数  σ(x) = 1 / (1 + e-x)  范围 (0,1)

逻辑回归模型:f(x) = 1 / (1 + e-(wTx + b))

然后使用 交叉熵损失函数 和 梯度下降优化算法, 根据训练数据学习出最优 w 和 b

 

3,支持向量机 Support Vector Machine

对偶原理

SVM使用核函数来处理非线性的场景

4,未知 已经提交勘误

5,决策树

怎么构造的 ID3算法

ID3 算法使用的是 信息增益(information gain)来衡量分裂方法的好坏 

信息增益:分裂后树的信息 减去 分裂前树的信息

信息: 熵 一个随机变量x的熵定义为:H(x) = - ΣPlog2Pi

直到子树的熵是0或者所有属性都用过了,截止。

 

6,随机森林 Random Forest

随机选择部分特性或者部分训练数据,生成多个决策树,最终投票选择最终的决策树。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!