有些知识还是记录下来比较容易复习。
懂原理, 会使用平台,使用语言实现常见算法。
1.大纲
机器学习的基本概念
机器学习的实质
机器学习方法的三要素
经验风险与结构风险
常见损失函数
一:基本概念
1.机器学习的方法流程
用监督学习为例
首先,有一个输入数据,然后根据这个输入数据做一些特征的加工和整理,基于特征进行模型的训练,去建模,然后做模型评估,得到一个可以接受的模型,然后对模型就行部署,使用模型对业务进行应用。
定期更新模型,对模型生命周期进行维护。
2.输入空间与输出空间
输入空间(input space):将输入的所有可能取值的集合称作输入空间
输出空间(output space):将输出的所有可能取值的集合作为输出空间
输入空间与输出空间可以是有限元素的集合,也可以是欧式空间
输出空间与输出空间可以是连续值的集合,也可以是离散集合
输入空间与输出空间可以是同一个空间
通常,输出空间比输入空间小
3.特征空间
特征:每个输入实例的各个部分称为原始特征,基于特征还可以扩展出衍生特征
特征向量:多个特征组合的集合
特征空间:将特征向量存在的空间称为特征空间
特征空间每一维都对应一个特性
特征空间可以与输入空间相同,也可以不同
需要将实例从输入空间映射到特征空间
模型实际上是定义特征空间之上的
4.输入空间与特征空间
需要将实例从输入空间映射到特征空间
模型实际上是定义特征空间之上的
5.假设空间
由输入空间到输出空间的映射的集合。
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。学习的目的就是找到最好的这样的模型。
模型属于输入空间到输出空间的映射集合,这个结合就是假设空间
举例:
二:机器学习方法的三要素
1.三要素
方法=模型+策略+算法
模型:输入空间到输出空间的映射关系,学习过程就是从假设空间中搜索适合当前数据的假设
策略:从假设空间众多 的假设中选择最优模型的学习标准或者规则
算法:学习模型的具体计算方法,通常所以求解最优化问题
模型:确定学习范围
策略:确定学习规则
算法:按照规则在范围内学习
2.模型
分析当前需要解决的问题,确定模型。
3.策略
从假设空间众多假设中选择到最优的模型的学习标准或者规则
选择时,需要解决以下的问题:
评估对单个样本的效果
评估对训练集的整体效果
评估对包括训练集预测集在内的所有数据的整体效果
定义几个指标来衡量:
损失函数:0-1损失函数
风险函数:经验风险,期望风险,结构风险
策略:
经验风险最小EMR
结构风险最小SRM
4.损失函数
用来衡量预测结果与真实结果之间的差距,值越小,越一致
通常是一个非负实值函数
通过各种方式缩小损失函数的过程被称为优化,损失函数记做L(Y,f(x))
常见:
0-1损失函数:预测值与实际值相同是没有损失为0,否是是完全损失,为1。过于严格,一般采用两者的差小于某个阈值的方式。
绝对值损失函数:预测结果与真实结果差的绝对值,简单易懂,但是计算不方便
平方损失函数:预测结果与真实结果差的平方。
优势:
每个差值都是正的,累加不会被抵消
平方对于大误差的惩罚大于小误差
数据计算简单,友好,导数为一次函数
对数损失函数:对数函数具有单调性,在求最优化问题时,结果与原始目标一致,可以将乘法转化为加法,简化计算
指数损失函数:单调性,非负性优良性质,使得越接近正确结果,误差越小
折叶损失函数:也叫铰链损失,对于判定边界附近的点的惩罚力度较高,常见于SVM。
使用场景:
0-1:理想状况模型
log:逻辑回归,交叉熵
squared:线性回归
exponential:AdaBoosting
Hinge:SVM,soft margin
5.经验风险与风险函数
经验风险:损失函数度量了单个样本的预测结果,想要很亮整个训练集的预测值与真实值的差异,将整个训练集所有记录均进行一次预测,求损失函数,将所有的值累加,即为经验风险。
经验风险越小,说明模型对训练集的拟合度越好。
风险函数:又要期望损失,期望风险。所有的数据集的损失函数的期望。
经验风险与期望风险:
期望风险是对全局的效果,经验风险对局部的效果
期望风险往往无法计算,经验风险可以计算
当训练集足够大时,经验风险可以替代期望风险
6.经验风险的的问题
在样本比较小时,仅关注经验风险,容易导致过拟合
7.结构风险
在经验风险的基础上,我们继续解决。
在经验风险的基础上,增加一个正则化项(Regularizer)或者为惩罚项(Penalty Term)。
结构风险与经验风险:
经验风险越小,模型决策函数越复杂,包含的参数越多
当经验风险函数小到一定程度就出现过拟合
防止过拟合的方式,就是降低决策函数的复杂度,让惩罚项最小化
需要同时保证经验风险函数与模型决策函数的复杂度都达到最小化
把两个式子融合得到结构风险函数,然后对这个结构风险函数进行最小化
8.范数
规则化函数有多重选择,一般的,他是模型复杂度的单调递增函数,模型越复杂,该函数的值越大,惩罚力度越大。
常用模型的参数向量的范数。
常用的范数有零范数,一范数,二范数。
公式:
Lo范数:非零的元素的个数
L1范数:各个元素的绝对值之和,使用L1,使得参数稀疏。
L2范数:各个元素的平方和求平方根,使得每个元素都很小,但是不会等于0,而是接近于0.
9.范数
3.
来源:https://www.cnblogs.com/juncaoit/p/10387272.html