机器学习可以分为三大类:监督学习、非监督学习、强化学习。
今天学习监督学习模型,根据输出是连续的还是离散的,又分为 回归问题 和 分类问题。
监督学习的训练数据,都是带‘答案’的,通过输入和答案之间的对应关系,获取其中的规则。
1,朴素贝叶斯分类器 Naive Bayes Classifier
假设样本的特征(被观察现象的一个可以测量的属性)在给定分类的条件下是相互独立的。
选择重要的特性对于传统的机器学习方法至关重要。
简单来讲这就是个概率计算 假设输入 X = (x1,x2,...,xn) 在给定 x的条件下 分类Ck的概率: P(Ck|X) = ∏P(xi|Ck)P(Ck) / P(X)
解释:给定X, P(X) 是一个固定的归一化的常量,因此可以忽略;P(xi|Ck) 和 P(Ck) 是通过训练数据集获取计算来的;
这样就可以计算给定条件X下的各个分类的概率,取概率最大的作为分类结果。
需要注意个细节: 如果 Xi 过多,相乘可能出现下溢(0),可以把乘法转为取对数相加;对于训练集中未出现的值的概率,可以忽略。
2,逻辑回归 Logistic Regression
线性回归模型: y = wTx + b
这个输出范围是 负无穷 到 正无穷
要转换为分类问题,需要使用 Sigmoid 函数 σ(x) = 1 / (1 + e-x) 范围 (0,1)
逻辑回归模型:f(x) = 1 / (1 + e-(wTx + b))
然后使用 交叉熵损失函数 和 梯度下降优化算法, 根据训练数据学习出最优 w 和 b
3,支持向量机 Support Vector Machine
对偶原理
SVM使用核函数来处理非线性的场景
4,未知 已经提交勘误
5,决策树
怎么构造的 ID3算法
ID3 算法使用的是 信息增益(information gain)来衡量分裂方法的好坏
信息增益:分裂后树的信息 减去 分裂前树的信息
信息: 熵 一个随机变量x的熵定义为:H(x) = - ΣPi log2Pi
直到子树的熵是0或者所有属性都用过了,截止。
6,随机森林 Random Forest
随机选择部分特性或者部分训练数据,生成多个决策树,最终投票选择最终的决策树。
来源:oschina
链接:https://my.oschina.net/u/4395108/blog/3317514