人工智能
本文主要来源于中国慕课大学《机器学习概论》学习笔记
图一新闻中的面部识别系统的识别率(准确率)达到99.8%,人们大概率对该识别率的直观感觉是较高的。但若在实际生活中,信息不匹配情况的概率为1%,则将所有情况识别为匹配,识别率可达99%;若信息不匹配情况的概率为0.1%,则识别率可达99.9%。因此,在未知样本先验分布的情况下,仅根据识别率判断机器学习系统性能是没有意义的。
图一,图片来源:根据中国慕课大学《机器学习概论》资料制作 因此,判断机器学习系统性能需要更复杂的指标,例如:混淆矩阵(CONFUSION MATRIX)、ROC曲线等。
一、混淆矩阵的形式
混淆矩阵如表一所示,混淆矩阵中包含两种识别正确的情况和两种识别错误的情况。 (1)两种识别正确的情况为: 1)True Positive(TP),即正样本被识别为正样本的数量(或概率) 2)True Negative(TN),即负样本被识别为负样本的数量(或概率) (2)两种识别错误的情况为: 1)False Negative(FN),即正样本被识别为负样本的数量(或概率) 2)False Positive(FP),即负样本被识别为正样本的数量(或概率)
预测 | |||
实际 | 正样本 | 负样本 | |
正样本 | True Positive(TP) | False Negative(FN) | |
负样本 | False Positive(FP) | True Negative(TN) |
表一,内容来源:中国慕课大学《机器学习概论》 二、兵(车)王问题混淆矩阵的数量形式 兵(车)王问题在23086个测试样本中的混淆矩阵如表二所示:
预测 | |||
实际 | 正样本 | 负样本 | |
正样本 | TP(2249) | FN(39) | |
负样本 | FP(51) | TN(20717) |
表二,内容来源:中国慕课大学《机器学习概论》 根据兵(车)王问题的混淆矩阵:兵(车)王问题将2249个正样本识别为正样本,将20717个负样本识别为负样本;将39个正样本识别为负样本,将51个负样本识别为正样本。 根据兵(车)王问题的混淆矩阵:兵(车)王问题共包含2288个正样本(通过TP+FN得出)和20768个负样本(通过FP+TN得出),该兵(车)王问题的机器学习系统识别率为99.61%(通过(TP+TN)/(TP+TN+FP+FN)得出),若将所有测试样本猜测为负样本,则猜测正确的概率为89.96%(通过(FP+TN)/(TP+TN+FP+FN))。 通过混淆矩阵可以得出:在一个依靠猜测可使识别率达至89.96%的问题中,上述机器学习系统的识别率可达99.61%,即上述机器学习系统的性能较好,但其性能应低于通常人们所认知的识别率为99.61%的系统的性能。
三、兵(车)王问题混淆矩阵的概率形式
因为兵(车)王问题兵(车)王问题共包含2288个正样本和20768个负样本,且正样本数量和负样本数量是不变的,所以兵(车)王问题混淆矩阵的概率形式可通过下述方式计算: (1)TP=2249/2288=98.295% (2)FN=39/2288=1.705% (3)FP=51/20768=0.246% (4)TN=20717/20768=99.754%
转化得出(该过程可被称为“以行做归一化”)。兵(车)王问题混淆矩阵的概率形式如表三所示:
预测 | |||
实际 | 正样本 | 负样本 | |
正样本 | TP(98.295%) | FN(1.705%) | |
负样本 | FP(0.246%) | TN(99.754%) |
表三,内容来源:中国慕课大学《机器学习概论》 根据表三可得出: (1)TP+FN=1 (2)FP+TN=1
编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !