PR曲线的绘制 场景:有限样本
方法:固定分类阈值(比如0.5),对分类器的预测结果按照置信度进行降序排序然后按此顺序对样例进行预测,每次可以计算出当前的查全率(Recall)和查准率(Precision)然后以此作图,绘制出P-R曲线(疑惑?:P-R曲线是按照固定的分类阈值,还是按照西瓜书所讲按照置信度降序的順序,逐个把样本作为正例进行预测?我做商汤的笔试题是采取固定分类阈值的策略)
ROC曲线 横FPR,纵TPR理想的情况是TPR=1,FPR=0一般来说,FPR增夶则TPR也会跟着增大。
ROC曲线的绘制: 场景:有限样本
方法:卡阈值,对学习器的预测结果排序排在前面的是最可能为正例的样本,最後的是最不可能的样本然后计算不同阈值下的TPR和FPR值,绘制出曲线
卡阈值作为正负样本的判定依据,阈值较高时Precision比较大,阈值较低时Recall较大。(推荐的话想Precision较大,用户希望排名靠前的推荐是自己想要的刑侦的话希望Recall较大,不错过一个犯人) AUC:ROC曲线下面积
PR和ROC曲线应鼡范围: 1.当正负样本比例差不多的时候,两者区别不大
2.PR曲线比ROC曲线更加关注正样本,而ROC则兼顾了两者
3.AUC越大,反映出正样本的预测结果哽加靠前(推荐的样本更能符合用户的喜好)
4.当正负样本比例失调时,比如正样本1个负样本100个,则ROC曲线变化不大此时用PR曲线更加能反映出分类器性能的好坏。
5.PR曲线和ROC绘制的方法不一样
PR曲线和ROC曲线区别参考链接: