集成学习
集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统。如下图显示出集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来,个体学习器通常由一个现有的学习算法从训练数据中产生,例如C4.5决策树算法,BP神经网络等。个体学习器可以是相同的类型的学习器也可以是不同类型的,相同类型的称为“基学习器”,不同的称为“组件学习器”或者“个体学习器”。 集成学习通过将多个学习器进行结合,常可获得单一学习器显著优越的泛化性能,这对“弱学习器”(泛化性能略高于随机猜测的学习器)尤为明显,因此集成学习的很多理论都是针对弱学习器进行的。 考虑二分类的问题$y\in\{-1,+1\}$和真实函数$f$,假定基分类器的错误率为$\epsilon$,即对每个基分类器$h_{i}$有 $P(h_{i}\neq f(x))=\epsilon$ 假设集成通过简单投票法结合T个基分类器,若有超过半数的基分类器正确,则集成分类就正确: $H(x)=sign(\sum_{i=1}^{T}h_{i}(x))$ 假设基分类器的错误率相对独立,则由$Hoeffding$不等式可知,集成的错误率为: 上式显示出,随着集成中个体分类器数目T的增大,集成的错误率将指数级下降,最终趋于0。 上面的假设是个体分类器中时相对独立的,在现实任务中,个体学习器是为解决同一个问题训练出来的