支持向量机(系统识别的性能度量之ROC曲线)

电子说

1.2w人已加入

描述

一、ROC曲线的含义  

ROC曲线的英文名称为Receiver Operating Characteristic Curve,中文译为受试者工作特征曲线。  

ROC曲线是基于混淆矩阵发展而来的系统识别的性能度量。如表一所示,在混淆矩阵中,若系统的TP增加,则该系统FP增加,即若开发人员欲使机器学习系统将更多的正样本识别为正样本(TP增加),则该系统一定会将更多的负样本识别为正样本(FP增加)。  

  预测
实际   正样本 负样本
正样本 True Positive(TP)  False Negative(FN)
负样本 False Positive(FP) True Negative(TN)

表一,内容来源:中国慕课大学《机器学习概论》  

对于支持向量机学习系统,“若系统的TP增加,则该系统FP增加”的结论可基于支持向量机的判别公式理解。  

支持向量机的判别公式为: 若∑αiyiK(Xi,X)+b≥0,则y=+1(判别为正样本); 若∑αiyiK(Xi,X)+b<0,则y=-1(判别为负样本)。  

若将上述支持向量机的判别公式的阈值从“0”更改至“-1”为: 若∑αiyiK(Xi,X)+b≥-1,则y=+1(判别为正样本); 若∑αiyiK(Xi,X)+b<-1,则y=-1(判别为负样本)。

则不仅正样本被判别为正样本的数量增加,负样本被判别为正样本的数量也增加,即此机器向量机系统的TP和FP均增加。  

因此,虽然支持向量机可通过改变判别式阈值增加TP,但此种方法也将导致FP增加,即简单改变判别式阈值不能有效提高系统的性能。可有效提高系统性能的方式是设计更优的算法。  

基于此,人们可通过系统TP与FP之间的关系,即绘制TP与FP曲线(ROC曲线)判别系统性性能的优劣。    

二、ROC曲线的绘制  

图一中的四条曲线均为ROC曲线,ROC曲线的横坐标为FP,纵坐标为TP。  

ROC曲线的绘制步骤如下:

(1)将每个测试样本的值带入至∑αiyiK(Xi,X)+b中计算;

(2)将第(1)步所计算出的值从小到大排序;

(3)将第(2)步完成排序的值作为判别式的阈值,并计算每个阈值下的TP和FP的值;

(4)将同一阈值下TP和FP的值作为一个点的纵坐标和横坐标,将所有点绘制于坐标系中,所有点连接绘制的曲线即为ROC曲线。

机器学习

图一,图片来源:中国慕课大学《机器学习概论》    

三、通过ROC曲线判别系统性能的方式  

如图一所示,坐标系中包含四种算法的ROC曲线。根据图一ROC曲线,此四种算法中,蓝色ROC曲线所对应的算法最优,紫色ROC曲线所对应的算法最差,即越贴近左上角的ROC曲线性能越好。

该结论可通过以下方式理解:对于相同的FP,ROC曲线越贴近左上角,所对应的算法的TP越大,即算法性能越好。

根据ROC曲线可衍生出系统识别的性能度量包括:AUC(AREA UNDER CURVE)和EER(EQUAL ERROR RATE)  

(1)AUC AUC是指ROC曲线下方的面积,该指标越大,系统性能越好。

机器学习

图片来源:中国慕课大学《机器学习概论》  

(2)EER

EER的中文翻译为等错误率,等错误率为坐标系中点(0,1)和点(1,0)的连线与ROC曲线交点的横坐标,EER越小,系统性能越好。

机器学习

图片来源:中国慕课大学《机器学习概论》  





审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分