【20210914】【机器/深度学习】模型评价指标：精确率、召回率、特异性、敏感性、F1-score、ROC曲线、AUC

发布时间：2023-12-28 11:30

一、区分精确率、召回率和特异性、敏感性

在数据科学中，查看精确率和召回率来评估构建的模型是十分常见的。而在医学领域，通常使用特异性和敏感性来评估医学测试。这一点在兆观的论文、以及 xxx院的沟通过程中，也注意到这一点了~

这些指标有很大的相似之处，但也有些许区别，所以关键在于：不同的领域有不同的评价指标，在给出结果的时候，要考虑对方想要看的指标是什么？或者说，在对方的领域内，权威公认的测试指标是什么？

先给出一个混淆矩阵~

物理意义：在所有预测的样本中，有多少预测正确？

物理意义：在所有预测的正样本中，有多少的真的正样本？

物理意义：在所有的真实正样本中，有多少被预测成正样本？

物理意义：在所有的真实负样本中，有多少被预测成负样本？

物理意义：在所有的真实正样本中，有多少被预测成正样本？

可以看出，敏感性和召回率是一样的。

心得：工作中的睡眠呼吸异常检测只关注了精确率和召回率，而没有关注特异性和敏感性。换言之，忽略特异性的同时，没有太去关注对负样本的检测结果，因为精确率和召回率只关注对正样本的检测结果，而可能存在高精确率、高召回率但同时有低特异性的分类器，如下图：

（但可能影响有没那么大，因为我们实际应用的场景，负样本的个数远超正样本的个数，和这个分类器又不完全一样）

（参考：搞懂敏感性、特异性以及精确率和召回率的关系）

物理意义：Precision 和 Recall 的调和平均数

（参考：模型评价(AUC，ROC曲线，ACC, 敏感性，特异性，精确度，召回率，PPV, NPV, F1)）

ROC(Receiver Operation Characteristic) 又叫接受者操作特征曲线，物理意义：在特定的刺激条件下，以被试在不同判断标准下所得的虚报概率为横坐标，以击中概率为纵坐标，画得的各点的连线。

ROC曲线的横坐标为假正例率FPR，纵坐标为真正例率TPR。曲线距离左上角越近，表明分类器效果越好。

AUC(Area under roc curve)，物理意义：ROC曲线下的面积。AUC越大，分类器分类效果越好。

（参考：机器学习评价指标合辑(TP/FP/FN/TN/Precision/Recall/F1score/P-R曲线/ROC曲线/AUC)）

（参考：ROC曲线与AUC值）