机器学习笔记-第二章模型评估与选择1

发布时间：2024-07-21 13:01

错误率（error rate）：分类错误的样本数占样本总数的比例。
精度 = 1 - 错误率
误差（error）：学习器的实际预测输出与样本的真实输出之间的差异
训练误差/经验误差
泛化误差：在新样本上的误差。

划分训练集和测试集：

1、留出法：直接将数据集 $D$ 划分为两个互斥的集合。
2、交叉验证法：现将数据集 $D$ 划分为 $k$ 个大小相似的互斥子集，每个子集 $D i $ 都尽可能保持数据分布的一致性，即从 $D$ 中通过分层采样得到。然后，每次用 $k - 1$ 个子集的并集作为训练集，余下的那个子集作为测试集，最后返回这 $k$ 个测试结果的均值。
3、自助法：以自助采样法为基础，给定包含 $m$ 个样本的数据集 $D$ ，每次随机从 $D$ 有放回的抽取一个样本，将其放入 $D ′ D\' D′$ ，重复执行 $m$ 次，则得到一个包含 $m$ 个样本的数据集 $D ′ D\' D′$ 。将 $D ′ D\' D′$ 用作训练集， $D / D ′ D/D\' D/D′$ 用作测试集。
（自助法产生的数据会改变初始数据集的分布，引入估计偏差）

性能度量

1、均方误差（回归）：
$E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 . E(f;D) = \\frac{1}{m}\\sum_{i=1}^m (f(x_i)-y_i)^2. E(f;D)=m1i=1∑m(f(xi)−yi)2.$
对于数据分布和概率密度函数 $p (.)$ ：
$E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d t . E(f;D) = \\int_{x\\sim D} (f(x)-y)^2p(x)dt. E(f;D)=∫x∼D(f(x)−y)2p(x)dt.$
2、错误率：
$E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) . E(f;D) = \\frac{1}{m}\\sum_{i=1}^m I(f(x_i)\\neq y_i). E(f;D)=m1i=1∑mI(f(xi)=yi).$
3、 查准率和查全率
$\"机器学习笔记-第二章模型评估与选择1_第1张图片\"$
查准率-查全率曲线：
$\"机器学习笔记-第二章模型评估与选择1_第2张图片\"$ 在进行比较时，若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者，如图中的B优于C；如果两个学习器的P-R曲线发生了交叉，则难以比较

平衡点（BEP）： 是查准率=查全率时的取值，则可知A优于B。

F1度量：
$F 1 = 2 × P × R P × R = 2 × T P 样例总数 + T P − T N F1= \\frac{2\\times P\\times R}{P\\times R}=\\frac{2\\times TP}{样例总数+TP-TN} F1=P×R2×P×R=样例总数+TP−TN2×TP$
F1度量的一般形式—— $F β F_\\beta Fβ$ ：能表达出对查准率 $/$ 查全率的不同偏好:
$F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_\\beta= \\frac{(1+\\beta^2)\\times P\\times R}{(\\beta^2\\times P)+R} Fβ=(β2×P)+R(1+β2)×P×R$
$\"\"$ 有多个二分类混淆矩阵时：
① 分别计算出查准率和查全率，再计算平均值。
$宏查准率（ m a c r o _ P ） = 1 n ∑ i = 1 n P i 宏查准率（macro\\_P）=\\frac{1}{n} \\sum_{i=1}^n P_i 宏查准率（macro_P）=n1i=1∑nPi$
$宏查全率（ m a c r o _ R ） = 1 n ∑ i = 1 n R i 宏查全率（macro\\_R）=\\frac{1}{n} \\sum_{i=1}^n R_i 宏查全率（macro_R）=n1i=1∑nRi$
$宏 F 1 （ m a c r o _ F 1 ） = 2 × m a c r o _ P × m a c r o _ R m a c r o _ P + m a c r o _ R 宏F1（macro\\_F1）=\\frac{2\\times macro\\_P\\times macro\\_R}{macro\\_P+macro\\_R} 宏F1（macro_F1）=macro_P+macro_R2×macro_P×macro_R$
② 先将个混淆矩阵对应的元素平均，再基于这些平均值计算。
$微查准率（ m i c r o _ P ） = T P ‾ T P ‾ + F P ‾ 微查准率（micro\\_P）=\\frac{\\overline{TP}}{\\overline{TP}+\\overline{FP}} 微查准率（micro_P）=TP+FPTP$
$微查全率（ m i c r o _ R ） = T P ‾ T P ‾ + F N ‾ 微查全率（micro\\_R）=\\frac{\\overline{TP}}{\\overline{TP}+\\overline{FN}} 微查全率（micro_R）=TP+FNTP$
$微 F 1 （ m i c r o _ F 1 ） = 2 × m i c r o _ P × m i c r o _ R m i c r o _ P + m i c r o _ R 微F1（micro\\_F1）=\\frac{2\\times micro\\_P\\times micro\\_R}{micro\\_P+micro\\_R} 微F1（micro_F1）=micro_P+micro_R2×micro_P×micro_R$

ROC （受试者工作特征曲线）

纵轴为“真正例率”（TPR）： $T P R = T P T P + F N TPR=\\frac{TP}{TP+FN} TPR=TP+FNTP$
横轴为“假正例率”（FPR）： $F P R = F P T N + F P FPR=\\frac{FP}{TN+FP} FPR=TN+FPFP$
$\"机器学习笔记-第二章模型评估与选择1_第3张图片\"$ $\"机器学习笔记-第二章模型评估与选择1_第4张图片\"$ $A U C = 1 2 ∑ i = 1 m − 1 ( x i + 1 − x i ) ⋅ ( y i + y i + 1 ) AUC=\\frac{1}{2}\\sum_{i=1}^{m-1}(x_{i+1}-x_i)\\cdot (y_i+y_{i+1}) AUC=21i=1∑m−1(xi+1−xi)⋅(yi+yi+1)$
$\"机器学习笔记-第二章模型评估与选择1_第5张图片\"$

代价敏感错误率与代价曲线

$表 2 _ 二分类代价矩阵表2\\_ 二分类代价矩阵表2_二分类代价矩阵$

真实类别	预测类别
	第0类（正类）	第1类（反类）
第0类（正类）	0	$c o s t 01 cost_{01} cost01$
第1类（反类）	$c o s t 10 cost_{10} cost10$	0

其中 $c o s t i j cost_{ij} costij$ 表示将第 $i$ 类样本预测为第 $j$ 类样本的代价。若将第0类判别为第1类所造成的损失更大，则 $c o s t 01 > c o s t 10 cost_{01}>cost_{10} cost01>cost10$ ；损失程度相差越大， $c o s t 01 cost_{01} cost01$ 与 $c o s t 10 cost_{10} cost10$ 值的差别越大。
一般情况下，重要的是代价比值而非绝对值。
$代价敏感错误率： E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + I ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − I ( f ( x i ) ≠ y i ) × c o s t 10 ) . 代价敏感错误率：E(f;D;cost)=\\frac{1}{m}(\\sum_{x_i\\in D^+}I(f(x_i)\\neq y_i)\\times cost_{01}+\\sum_{x_i\\in D^-}I(f(x_i)\\neq y_i)\\times cost_{10}). 代价敏感错误率：E(f;D;cost)=m1(xi∈D+∑I(f(xi)=yi)×cost01+xi∈D−∑I(f(xi)=yi)×cost10).$
代价曲线
横轴是取值为[0,1]的正例概率代价：
$P ( + ) c o s t = p × c o s t 01 p × c o s t 01 + ( 1 − p ) × c o s t 10 P(+)cost=\\frac{p\\times cost_{01}}{p\\times cost_{01}+(1-p)\\times cost_{10}} P(+)cost=p×cost01+(1−p)×cost10p×cost01$
其中 $p$ 是样例为正例的概率。
纵轴是取值为[0,1]的归一化代价：
$c o s t n o r m = F N R × p × c o s t 01 + F P R × ( 1 − p ) × c o s t 10 p × c o s t 01 + ( 1 − p ) × c o s t 10 cost_{norm}=\\frac{FNR\\times p \\times cost_{01}+FPR\\times (1-p) \\times cost_{10}}{ p \\times cost_{01}+(1-p) \\times cost_{10}} costnorm=p×cost01+(1−p)×cost10FNR×p×cost01+FPR×(1−p)×cost10$
其中 $F P R$ 是假正例率， $F N R = 1 - T P R$ 是假反例率。
$\"机器学习笔记-第二章模型评估与选择1_第6张图片\"$ $\"机器学习笔记-第二章模型评估与选择1_第7张图片\"$

机器学习笔记-第二章模型评估与选择1

划分训练集和测试集：

性能度量

ROC （受试者工作特征曲线）

代价敏感错误率与代价曲线

相关推荐