机器学习笔记-第二章模型评估与选择1

发布时间:2024-07-21 13:01

错误率(error rate):分类错误的样本数占样本总数的比例。
精度 = 1 - 错误率
误差(error):学习器的实际预测输出与样本的真实输出之间的差异
训练误差/经验误差
泛化误差:在新样本上的误差。

划分训练集和测试集:

1、留出法:直接将数据集 D D D划分为两个互斥的集合。
2、交叉验证法:现将数据集 D D D划分为 k k k个大小相似的互斥子集,每个子集 D i D_i Di都尽可能保持数据分布的一致性,即从 D D D中通过分层采样得到。然后,每次用 k − 1 k-1 k1个子集的并集作为训练集,余下的那个子集作为测试集,最后返回这 k k k个测试结果的均值。
3、自助法:以自助采样法为基础,给定包含 m m m个样本的数据集 D D D,每次随机从 D D D有放回的抽取一个样本,将其放入 D ′ D\' D,重复执行 m m m次,则得到一个包含 m m m个样本的数据集 D ′ D\' D。将 D ′ D\' D用作训练集, D / D ′ D/D\' D/D用作测试集。
(自助法产生的数据会改变初始数据集的分布,引入估计偏差)

性能度量

1、均方误差(回归):
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 . E(f;D) = \\frac{1}{m}\\sum_{i=1}^m (f(x_i)-y_i)^2. E(f;D)=m1i=1m(f(xi)yi)2.
对于数据分布和概率密度函数 p ( . ) p(.) p(.)
E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d t . E(f;D) = \\int_{x\\sim D} (f(x)-y)^2p(x)dt. E(f;D)=xD(f(x)y)2p(x)dt.
2、错误率:
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) . E(f;D) = \\frac{1}{m}\\sum_{i=1}^m I(f(x_i)\\neq y_i). E(f;D)=m1i=1mI(f(xi)=yi).
3、 查准率和查全率
\"机器学习笔记-第二章模型评估与选择1_第1张图片\"
查准率-查全率曲线:
\"机器学习笔记-第二章模型评估与选择1_第2张图片\"在进行比较时,若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者,如图中的B优于C;如果两个学习器的P-R曲线发生了交叉,则难以比较

平衡点(BEP):查准率=查全率时的取值,则可知A优于B。

F1度量:
F 1 = 2 × P × R P × R = 2 × T P 样 例 总 数 + T P − T N F1= \\frac{2\\times P\\times R}{P\\times R}=\\frac{2\\times TP}{样例总数+TP-TN} F1=P×R2×P×R=+TPTN2×TP
F1度量的一般形式—— F β F_\\beta Fβ:能表达出对查准率 / / /查全率的不同偏好:
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_\\beta= \\frac{(1+\\beta^2)\\times P\\times R}{(\\beta^2\\times P)+R} Fβ=(β2×P)+R(1+β2)×P×R
\"\"有多个二分类混淆矩阵时:
① 分别计算出查准率和查全率,再计算平均值。
宏 查 准 率 ( m a c r o _ P ) = 1 n ∑ i = 1 n P i 宏查准率(macro\\_P)=\\frac{1}{n} \\sum_{i=1}^n P_i macro_P=n1i=1nPi
宏 查 全 率 ( m a c r o _ R ) = 1 n ∑ i = 1 n R i 宏查全率(macro\\_R)=\\frac{1}{n} \\sum_{i=1}^n R_i macro_R=n1i=1nRi
宏 F 1 ( m a c r o _ F 1 ) = 2 × m a c r o _ P × m a c r o _ R m a c r o _ P + m a c r o _ R 宏F1(macro\\_F1)=\\frac{2\\times macro\\_P\\times macro\\_R}{macro\\_P+macro\\_R} F1macro_F1=macro_P+macro_R2×macro_P×macro_R
② 先将个混淆矩阵对应的元素平均,再基于这些平均值计算。
微 查 准 率 ( m i c r o _ P ) = T P ‾ T P ‾ + F P ‾ 微查准率(micro\\_P)=\\frac{\\overline{TP}}{\\overline{TP}+\\overline{FP}} micro_P=TP+FPTP
微 查 全 率 ( m i c r o _ R ) = T P ‾ T P ‾ + F N ‾ 微查全率(micro\\_R)=\\frac{\\overline{TP}}{\\overline{TP}+\\overline{FN}} micro_R=TP+FNTP
微 F 1 ( m i c r o _ F 1 ) = 2 × m i c r o _ P × m i c r o _ R m i c r o _ P + m i c r o _ R 微F1(micro\\_F1)=\\frac{2\\times micro\\_P\\times micro\\_R}{micro\\_P+micro\\_R} F1micro_F1=micro_P+micro_R2×micro_P×micro_R

ROC (受试者工作特征曲线)

纵轴为“真正例率”(TPR): T P R = T P T P + F N TPR=\\frac{TP}{TP+FN} TPR=TP+FNTP
横轴为“假正例率”(FPR): F P R = F P T N + F P FPR=\\frac{FP}{TN+FP} FPR=TN+FPFP
\"机器学习笔记-第二章模型评估与选择1_第3张图片\"\"机器学习笔记-第二章模型评估与选择1_第4张图片\" A U C = 1 2 ∑ i = 1 m − 1 ( x i + 1 − x i ) ⋅ ( y i + y i + 1 ) AUC=\\frac{1}{2}\\sum_{i=1}^{m-1}(x_{i+1}-x_i)\\cdot (y_i+y_{i+1}) AUC=21i=1m1(xi+1xi)(yi+yi+1)
\"机器学习笔记-第二章模型评估与选择1_第5张图片\"

代价敏感错误率与代价曲线

表 2 _ 二 分 类 代 价 矩 阵 表2\\_ 二分类代价矩阵 2_

真实类别 预测类别
第0类(正类) 第1类(反类)
第0类(正类) 0 c o s t 01 cost_{01} cost01
第1类(反类) c o s t 10 cost_{10} cost10 0

其中 c o s t i j cost_{ij} costij表示将第 i i i类样本预测为第 j j j类样本的代价。若将第0类判别为第1类所造成的损失更大,则 c o s t 01 > c o s t 10 cost_{01}>cost_{10} cost01>cost10;损失程度相差越大, c o s t 01 cost_{01} cost01 c o s t 10 cost_{10} cost10值的差别越大。
一般情况下,重要的是代价比值而非绝对值。
代 价 敏 感 错 误 率 : E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + I ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − I ( f ( x i ) ≠ y i ) × c o s t 10 ) . 代价敏感错误率:E(f;D;cost)=\\frac{1}{m}(\\sum_{x_i\\in D^+}I(f(x_i)\\neq y_i)\\times cost_{01}+\\sum_{x_i\\in D^-}I(f(x_i)\\neq y_i)\\times cost_{10}). E(f;D;cost)=m1(xiD+I(f(xi)=yi)×cost01+xiDI(f(xi)=yi)×cost10).
代价曲线
横轴是取值为[0,1]的正例概率代价:
P ( + ) c o s t = p × c o s t 01 p × c o s t 01 + ( 1 − p ) × c o s t 10 P(+)cost=\\frac{p\\times cost_{01}}{p\\times cost_{01}+(1-p)\\times cost_{10}} P(+)cost=p×cost01+(1p)×cost10p×cost01
其中 p p p是样例为正例的概率。
纵轴是取值为[0,1]的归一化代价:
c o s t n o r m = F N R × p × c o s t 01 + F P R × ( 1 − p ) × c o s t 10 p × c o s t 01 + ( 1 − p ) × c o s t 10 cost_{norm}=\\frac{FNR\\times p \\times cost_{01}+FPR\\times (1-p) \\times cost_{10}}{ p \\times cost_{01}+(1-p) \\times cost_{10}} costnorm=p×cost01+(1p)×cost10FNR×p×cost01+FPR×(1p)×cost10
其中 F P R FPR FPR是假正例率, F N R = 1 − T P R FNR=1-TPR FNR=1TPR是假反例率。
\"机器学习笔记-第二章模型评估与选择1_第6张图片\"\"机器学习笔记-第二章模型评估与选择1_第7张图片\"

ItVuer - 免责声明 - 关于我们 - 联系我们

本网站信息来源于互联网,如有侵权请联系:561261067@qq.com

桂ICP备16001015号