模型任务的评价指标体系

描述

1. 写在前面

模型“好”与“坏”的评价指标直接由业务目标/任务需求决定。我们需要做的是:根据具体的业务目标/任务需求去选择相应的评价指标,继而选出符合业务目标/任务需求的好模型。在此之前,我们需要全面了解一个任务的评价指标体系。

在二分类任务评价指标(上)中,我们已经学习了如何利用混淆矩阵来计算二分类的精度、错误率指标。今天,我们继续来学习二分类任务的其他评价指标。

2. 查准率、查全率

2.1 精度、错误率指标的局限

acc(精度、准确率)、error_rate(错误率)是分类任务中最常用的性能评价指标,多数情况下使用精度、错误率是合适的选择。比如,在「好瓜坏瓜」的西瓜问题中,如果我们关心的仅是“有多少西瓜被判别正确或错误”,那么精度和错误率就很适合。

但是,如果我们关心的是“被我们判别为好瓜的西瓜中有多少比例是真正的好瓜”或“所有真正的好瓜中有多少比例的西瓜被我们判断为好瓜”时,精度和错误率就不适合了。

再比如,在工业生产的「机器故障」预测应用中,业务目标是希望模型能将机器所有发生故障的时间预测出来,显然精度指标并不适合这样的场景。为什么呢?

首先,我们知道精度衡量的是分类正确的样本数占总样本数的比例,然而通常来说机器发生故障的次数是比较少的(比如只有2%的时间发生故障)。那么,即便每次机器发生故障时模型都预测错误,它的精度也可高达到98%。这样一个模型完全就是一个摆设,在实际生产中毫无用处。

2.2 查准率、查全率

在上面精度、错误率不适用的场景中,查准率(精确率,Precision,P)和查全率(召回率,recall,R)是更适合的模型评价指标。

2.2.1 查准率、查全率指标定义

我们还是利用混淆矩阵来计算二分类任务的查准率和查全率。

 

真实类别 预测类别
正例 负例
正例 TP(真正例) FN(假负例)
负例 FP(假正例) TN(真负例)

 

假设我们有如上混淆矩阵,那么查准率的定义如下:

即查准率是预测正确的正例(TP)占所有预测为正例的样本(TP+FP)的比例。

查全率定义如下:

即查全率是预测正确的正例(TP)占总正例(TP+FN)的比例。

2.2.2 查准率、查全率含义

在「好瓜坏瓜」西瓜问题中:

查准率:衡量了“被判别为好瓜的西瓜中有多少比例是真正的好瓜” ;

查全率:衡量了“所有真正的好瓜中有多少比例被判断为好瓜” ;

在「机器故障预测」问题中:

查准率:衡量了“被预测发生故障的时间中有多少比例确实发生了故障” ;

查全率:衡量了“机器发生故障的所有时间中有多少比例被预测出来了” ;

类似的,在「信息检索/web搜索」中:

查准率:衡量了“检索出的信息中有多少比例是用户真正感兴趣的”

查全率:衡量了“用户感兴趣的信息中有多少比例被检索出来了”

在「垃圾邮件检测」中:

查准率:衡量了“被预测为垃圾邮件的所有邮件中有多少比例的确是垃圾邮件”

查全率:衡量了“所有垃圾邮件中有多少比例被检测出来了”

在「诈骗电话检测」中:

查准率:衡量了“被预测为诈骗电话的来电中有多少比例是诈骗电话”

查全率:衡量了“所有诈骗电话中有多少比例被检测出来了”

2.2.3 查准率、查全率的矛盾

我们当然希望模型不仅有高查准率,也有高查全率。但事实上,查准率与查全率通常情况下是相互矛盾的,或者说查准率、查全率是一对相互矛盾的指标。

知乎上有个例子可以帮助我们直观地理解这个“矛盾性”。假设我们的模型是找到人群中隐藏的坏人,那么:

看重查全率: “宁可错杀一千,不可漏过一个”。

看重查准率: “宁可漏过坏人,不可错杀无辜的好人”。

更具体地,比如在「好瓜坏瓜」西瓜问题中,假设“好瓜”和“坏瓜”并没有那么容易区分(复杂问题),这时要想获得高查全率,就需要降低筛选标准,极端一点我们将所有西瓜都预测为好瓜,那么查全率就是100%,但是查准率就很低;而要想获得高查准率,就需要提高筛选标准,极端一点我们只将一个最有把握的西瓜预测为好瓜,并且预测准确了,那么查准率就是100%,但是查全率就很低。

3. 

既然查准率、查全率是一对相互矛盾的指标,我们就需要明确在不同的业务目标/任务需求中到底是希望查准率比较高还是查全率比较高。

3.1

当然,在二分类任务中,我们也有综合考虑了查准率和查全率的评价指标 F-Mesure(F-Score, ),它的定义如下:

其中 ()可视为权重参数,它度量了查准率和查全率的相对重要性。换句话说是查准率和查全率的加权调和平均。

由上式 的倒数的定义可知,当 时,相当于查全率被放大了,所以查全率有更大的影响;当 时,相当于查全率被缩小了,所以准率有更大的影响。

也就是说:

:更看重查全率指标。

:更看重查准率指标。

3.2 F1

在 中,当 时,也退化成了我们常见的 指标:

显然,根据下面的等价形式,可以知道在F1指标中,查准率和查全率同样重要:

编辑:何安

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分