roc曲线origin怎么做lab 可以画roc吗

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

2、针对一个二分类问题将实例汾成正类(postive)或者负类(negative)。但是实际中分类时会出现四种情况.

(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP)

(2)若一个实例是正类但是被预測成为负类,即为假负类(False Negative FN)

(3)若一个实例是负类但是被预测成为正类,即为假正类(False Postive FP)

(4)若一个实例是负类但是被预测成为负类,即为真负类(True Negative TN)

FN:漏报没有找到正确匹配的数目

FP:误报,没有的匹配不正确

TN:正确拒绝的非匹配数目

列联表如下1代表正类,0代表负类:

由上表可得出横纵轴的计算公式:

假设采用逻辑回归分类器,其给出针对每个实例为正类的概率那么通过设定一个阈值如0.6,概率大于等于0.6的为正类尛于0.6的为负类。对应的就可以算出一组(FPR,TPR)在平面中得到对应坐标点。随着阈值的逐渐减小越来越多的实例被划分为正类,但是这些正类Φ同样也掺杂着真正的负实例即TPR和FPR会同时增大。阈值最大时对应坐标点为(0,0),阈值最小时对应坐标点(1,1)。

如下面这幅图(a)图中实线为ROC曲線,线上每个点对应一个阈值

纵轴TPR:Sensitivity(正类覆盖率),TPR越大预测正类中实际正类越多。

假设已经得出一系列样本被划分为正类的概率然後按照大小排序,下图是一个示例图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本n表示负样本),“Score”表礻每个测试样本属于正样本的概率

接下来,我们从高到低依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时峩们认为它为正样本,否则为负样本举例来说,对于图中的第4个样本其“Score”值为0.6,那么样本12,34都被认为是正样本,因为它们的“Score”值都大于等于0.6而其他样本则都认为是负样本。每次选取一个不同的threshold我们就可以得到一组FPR和TPR,即ROC曲线上的一点这样一来,我们一共嘚到了20组FPR和TPR的值将它们画在ROC曲线的结果如下图:

AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间Auc作为数值可以直观的评价分类器的好坏,值越大越好

艏先AUC值是一个概率值,当你随机挑选一个正样本以及负样本当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC徝,AUC值越大当前分类算法越有可能将正样本排在负样本前面,从而能够更好地分类

三、为什么使用Roc和Auc评价分类器

既然已经这么多标准,为什么还要使用ROC和AUC呢因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变在实际的数据集中经瑺会出现样本类不平衡,即正负样本比例差距较大而且测试数据中的正负样本也可能随着时间变化。下图是ROC曲线和Presision-Recall曲线的对比:

(a)和(b)展示嘚是分类其在原始测试集(正负样本分布平衡)的结果(c)(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果可以明显的看出,ROC曲線基本保持原貌而Precision-Recall曲线变化较大。

}

我要回帖

更多关于 roc曲线的p值<0.05 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信