在分类任务中,各指标的计算基础都来自于对正负样本的分类结果,用混淆矩阵表示。
真实情况 |
预测结果 | |
正例 |
反例 | |
正例 |
TP |
FN |
反例 |
FP |
TN |
其中:TP、TN、FP、FN的含义:
TP(True Positives)预测为正样本,并且预测对了(真阳性)
TN(True Negatives)预测为负样本,而且预测对了(真阴性)
FP(False Positives)预测为正样本,但是预测错了(假阳性)
FN(False Negatives)预测为负样本,但是预测错了(假阴性)
假如模型对20个样本进行预测,结果如下:
预测值 0 0 0 0 1 0 1 0 1 0 1 0 1 1 0 1 1 1 0 1
真实值 0 0 1 1 1 1 1 0 1 0 0 0 0 1 0 1 1 1 1 0
预测值=1 |
预测值=0 | |
真实值=1 |
7 |
4 |
真实值=0 |
3 |
6 |
预测值=1 |
预测值=0 | |
真实值=1 |
TP |
FN |
真实值=0 |
FP |
TN |
1、精度(Accuracy)
Accuracy = |
TP TN |
TP FN FP TN |
即所有分类正确的样本占全部样本的比例。
Accuracy = |
7 6 |
7 4 3 6 |
计算:Accuracy=13/20=0.65=65%
2、精确率,精准率又叫做:Precision、查准率
Precision = |
TP |
TP FP |
即预测是正例的结果中,确实是正例的比例。
Precision = |
7 |
7 4 |
计算:Precision=7/10=0.7=70%
3、召回率,召回率又叫:Recall、查全率
Recall= |
TP |
TP FN |
即所有正例的样本中,被找出的比例
Recall= |
7 |
7 3 |
计算:Recall=7/11≈0.6364≈63.64%
4、P-R曲线,P-R曲线又叫做:PRC
根据预测结果将预测样本排序,最有可能为正样本的在前,最不可能的在后,依次将样本预测为正样本,分别计算当前的精确率和召回率,绘制P-R曲线。
PRC曲线图
,