《机器学习》周志华(西瓜书)学习笔记第七章贝叶斯分类器

发布时间：2022-08-30 04:00

《机器学习》周志华(西瓜书)学习笔记

总目录

第七章贝叶斯分类器

世上只有一种投资是只赚不赔的，那就是学习。
当你的的能力还驾驭不了你的目标时，
就应该沉下心来历练；
当你的才华撑不起你的野心时，
就应该静下心来学习

1.贝叶斯决策论

假设有 N 种可能的类别标记，即 $y = \{C_1， C_2，… ， C_N\}$

$\lambda_{ji}$ 是将一个真实标记为 $C_j$ 的样本误分类为 $C_i$ 所产生的损失.

基于后验概率 $P(C_i | x)$ 可获得将样本 $x$ 分类为 $C_i$ 所产生的期望损失(expected loss) ，
即在样本 $x$ 上的"条件风险”:
$R(c_i | x)=\sum_{j=1}^N\lambda_{ji}P(c_j | x)$

我们的任务是寻找一个判定准则以最小化总体风险:
$R(h)=E_x[R(h(x) | x)]$

对每个样本 $x$ ，若 $h$ 能最小化条件风险 $R (h (x) ∣ x)$ ，则总体风险 $R (h)$ 也将被最小化。这就产生了贝叶斯判定准则(Bayes decision rule): 为最小化总体风险，只需在每个样本上选择那个能使条件风险 $R (c ∣ x)$ 最小的类别标记，即:
$h(x)=arg min_{c }$

h称为贝叶斯最优分类器(Bayes optimal classifier)，与之对应的总体风险 $R (h)$ 称为贝叶斯风险(Bayes risk). $1 - R (h *)$ 反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。

后验概率 $P (c ∣ x)$ 有两种策略获得:

给定 $x$ ，可通过直接建模 $P (c ∣ x)$ 来预测 c，这样得到的是"判别式模型" ，如
- 决策树
- BP 神经网络
- 支持向量机

《机器学习》周志华(西瓜书)学习笔记 第七章 贝叶斯分类器