发布时间:2022-12-18 11:00
“Two heads are better than one.”
“三个臭皮匠,顶一个诸葛亮”
把多个人的智慧集合到一起,可能会比一个人好,放在机器学习上,我们借鉴这一经验,把融合多个学习方法的结果来提升效果的方法,我们叫做:Ensemble learning 集成学习。
假设我们有三个样本,h1、h2、h3代表三个分类器,预测结果如下:
对于上图这种结果,我们可以看到h1、h2、h3预测的准确率都是2/3,我们让h1、h2、h3进行投票,发现在最后一行,三个样本都预测对了,这样便是产生了积极的影响。
同理对于上面两种情况,分别是没有影响和产生了负面影响。
由于可能会产生不同的影响,因此我们要求:分类器需要效果好且不同!
(效果不好(弱分类器 acc<50%):情况c,相同:情况b)
直觉: 把对同一个问题的多个预测结果综合起来考虑的精度,应该比单一学习方法效果好。
证实: (一些理由)
- 很容易找到非常正确的 “rules of thumb(经验法则)” ,但是很难找到单个的有高准确率的规则
- 如果训练样本很少,假设空间很大,则存在多个同样精度的假设。 选择某一个假设可能在测试集上效果较差。
- 算法可能会收敛到局部最优解。融合不同的假设可以降低收敛到一个不好的局部最优的风险。或者在假设空间中穷举地全局搜索代价太大, 所以我们可以结合一些在局部预测比较准确的假设。
- 由当前算法定义的假设空间不包括真实的假设, 但做了一些不错的近似。