发布时间:2023-08-09 11:00
在所有相关概率都已知的情况下,贝叶斯决策论考虑的是:如何基于这些概率和误判损失来选择最优的类别标记。
表示 将真实标记 cj 的样本误分类为 ci 所产生的损失。基于后验概率 可得到 将样本 x 分类为 ci 所产生的期望损失:
我们的目标是:寻找一个判定准则 以最小化总体风险:
贝叶斯判定准则:为最小化总体风险,只需 在每个样本上选择那个能使条件风险 R( c|x )最小的类别标记:
此时, 称为贝叶斯最优分类器 (Bayes optimal classifier),即对每个样本 x, 选择能使 后验概率 P( c|x ) 最大的类别标记。
discriminative models:给定 x, 通过直接建模 P( c|x ) 来预测c。比如 决策树、BP神经网络、SVM等
generative models:先建模 联合概率分布 P(x, c),然后由此获得 P( c|x )。比如贝叶斯分类器。
根据贝叶斯定理,有
其中,P(c)表示 类先验prior概率;P(x|c)表示 样本x 相对于 类标记c 的类条件概率,也称为“似然”(likelihood),P(x) 表示归一化证据evidence因子。
别注:若加上属性条件独立性假设(同时也是朴素贝叶斯的基本假设),则有
d 表示属性数目,xi 表示 x在第 i 个属性上的取值。
类先验概率P(c) 反映了样本空间中 各类样本所占的比例,当训练集足够大时,可通过各类样本出现的频率来估计。
类条件概率P(x|c) 由于涉及关于x所有属性的联合概率,所以直接根据有限的训练样本出现频率来估计 将十分困难。
一种常见策略是:先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。即 先假设 P( x|c ) 具有确定的形式,且被参数向量 唯一确定,于是问题变为:利用训练集 D 估计参数 。
在参数估计问题上,有两个学派:
- 频率主义 学派 (Frequentist):参数虽未知但固定,因此可通过 优化似然函数来确定参数。
- MLE:根据数据采样 来估计概率分布参数