机器学习-常见的监督学习模型

机器学习可以分为三大类：监督学习、非监督学习、强化学习。

今天学习监督学习模型，根据输出是连续的还是离散的，又分为 回归问题 和 分类问题。

监督学习的训练数据，都是带‘答案’的，通过输入和答案之间的对应关系，获取其中的规则。

1，朴素贝叶斯分类器 Naive Bayes Classifier

假设样本的特征（被观察现象的一个可以测量的属性）在给定分类的条件下是相互独立的。

选择重要的特性对于传统的机器学习方法至关重要。

简单来讲这就是个概率计算假设输入 X = （x1,x2,...,xn）在给定 x的条件下分类Ck的概率： P(Ck|X) = ∏P(xi|Ck)P(Ck) / P(X)

解释：给定X, P(X) 是一个固定的归一化的常量，因此可以忽略；P(xi|Ck) 和 P(Ck) 是通过训练数据集获取计算来的；

这样就可以计算给定条件X下的各个分类的概率，取概率最大的作为分类结果。

需要注意个细节：如果 Xi 过多，相乘可能出现下溢（0），可以把乘法转为取对数相加；对于训练集中未出现的值的概率，可以忽略。

2，逻辑回归 Logistic Regression

线性回归模型： y = w^Tx + b

这个输出范围是负无穷到正无穷

要转换为分类问题，需要使用 Sigmoid 函数 σ(x) = 1 / (1 + e^-x) 范围（0,1）

逻辑回归模型：f(x) = 1 / (1 + e^{-(w^Tx + b)})

然后使用交叉熵损失函数和梯度下降优化算法，根据训练数据学习出最优 w 和 b

3，支持向量机 Support Vector Machine

对偶原理

SVM使用核函数来处理非线性的场景

4，未知已经提交勘误

5，决策树

怎么构造的 ID3算法

ID3 算法使用的是信息增益（information gain）来衡量分裂方法的好坏

信息增益：分裂后树的信息减去分裂前树的信息

信息：熵一个随机变量x的熵定义为：H(x) = - ΣP_ⁱlog₂P_i

直到子树的熵是0或者所有属性都用过了，截止。

6，随机森林 Random Forest

随机选择部分特性或者部分训练数据，生成多个决策树，最终投票选择最终的决策树。

来源：oschina

链接：https://my.oschina.net/u/4395108/blog/3317514

标签