模型任务的评价指标体系

深度学习自然语言处理 2023-01-11 1986

描述

1. 写在前面

模型“好”与“坏”的评价指标直接由业务目标/任务需求决定。我们需要做的是：根据具体的业务目标/任务需求去选择相应的评价指标，继而选出符合业务目标/任务需求的好模型。在此之前，我们需要全面了解一个任务的评价指标体系。

在二分类任务评价指标（上）中，我们已经学习了如何利用混淆矩阵来计算二分类的精度、错误率指标。今天，我们继续来学习二分类任务的其他评价指标。

2. 查准率、查全率

2.1 精度、错误率指标的局限

acc（精度、准确率）、error_rate（错误率）是分类任务中最常用的性能评价指标，多数情况下使用精度、错误率是合适的选择。比如，在「好瓜坏瓜」的西瓜问题中，如果我们关心的仅是“有多少西瓜被判别正确或错误”，那么精度和错误率就很适合。

但是，如果我们关心的是“被我们判别为好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我们判断为好瓜”时，精度和错误率就不适合了。

再比如，在工业生产的「机器故障」预测应用中，业务目标是希望模型能将机器所有发生故障的时间预测出来，显然精度指标并不适合这样的场景。为什么呢？

首先，我们知道精度衡量的是分类正确的样本数占总样本数的比例，然而通常来说机器发生故障的次数是比较少的（比如只有2%的时间发生故障）。那么，即便每次机器发生故障时模型都预测错误，它的精度也可高达到98%。这样一个模型完全就是一个摆设，在实际生产中毫无用处。

2.2 查准率、查全率

在上面精度、错误率不适用的场景中，查准率（精确率，Precision,P）和查全率（召回率，recall，R）是更适合的模型评价指标。

2.2.1 查准率、查全率指标定义

我们还是利用混淆矩阵来计算二分类任务的查准率和查全率。

真实类别	预测类别
正例	负例
正例	TP(真正例)	FN(假负例)
负例	FP(假正例)	TN(真负例)

假设我们有如上混淆矩阵，那么查准率的定义如下：

即查准率是预测正确的正例（TP）占所有预测为正例的样本（TP+FP）的比例。

查全率定义如下：

即查全率是预测正确的正例（TP）占总正例（TP+FN）的比例。

2.2.2 查准率、查全率含义

在「好瓜坏瓜」西瓜问题中：

查准率：衡量了“被判别为好瓜的西瓜中有多少比例是真正的好瓜” ；

查全率：衡量了“所有真正的好瓜中有多少比例被判断为好瓜” ；

在「机器故障预测」问题中：

查准率：衡量了“被预测发生故障的时间中有多少比例确实发生了故障” ；

查全率：衡量了“机器发生故障的所有时间中有多少比例被预测出来了” ；

类似的，在「信息检索/web搜索」中：

查准率：衡量了“检索出的信息中有多少比例是用户真正感兴趣的”

查全率：衡量了“用户感兴趣的信息中有多少比例被检索出来了”

在「垃圾邮件检测」中：

查准率：衡量了“被预测为垃圾邮件的所有邮件中有多少比例的确是垃圾邮件”

查全率：衡量了“所有垃圾邮件中有多少比例被检测出来了”

在「诈骗电话检测」中：

查准率：衡量了“被预测为诈骗电话的来电中有多少比例是诈骗电话”

查全率：衡量了“所有诈骗电话中有多少比例被检测出来了”

2.2.3 查准率、查全率的矛盾

我们当然希望模型不仅有高查准率，也有高查全率。但事实上，查准率与查全率通常情况下是相互矛盾的，或者说查准率、查全率是一对相互矛盾的指标。

知乎上有个例子可以帮助我们直观地理解这个“矛盾性”。假设我们的模型是找到人群中隐藏的坏人，那么：

看重查全率: “宁可错杀一千，不可漏过一个”。

看重查准率: “宁可漏过坏人，不可错杀无辜的好人”。

更具体地，比如在「好瓜坏瓜」西瓜问题中，假设“好瓜”和“坏瓜”并没有那么容易区分（复杂问题），这时要想获得高查全率，就需要降低筛选标准，极端一点我们将所有西瓜都预测为好瓜，那么查全率就是100%，但是查准率就很低；而要想获得高查准率，就需要提高筛选标准，极端一点我们只将一个最有把握的西瓜预测为好瓜，并且预测准确了，那么查准率就是100%，但是查全率就很低。

既然查准率、查全率是一对相互矛盾的指标，我们就需要明确在不同的业务目标/任务需求中到底是希望查准率比较高还是查全率比较高。

3.1

当然，在二分类任务中，我们也有综合考虑了查准率和查全率的评价指标 F-Mesure(F-Score, )，它的定义如下：

其中（）可视为权重参数，它度量了查准率和查全率的相对重要性。换句话说是查准率和查全率的加权调和平均。

由上式的倒数的定义可知，当时，相当于查全率被放大了，所以查全率有更大的影响；当时，相当于查全率被缩小了，所以准率有更大的影响。

也就是说：

：更看重查全率指标。

：更看重查准率指标。

3.2 F1

在中，当时，也退化成了我们常见的指标：

显然，根据下面的等价形式，可以知道在F1指标中，查准率和查全率同样重要：

编辑：何安

打开APP阅读更多精彩内容