关于多重比较校正虽然曾经查過很多东西,也大概记住一些但最近发现没留下多少正确的印象。所以又温习了一遍稍加整理,留备后用当然,这些还是我自己的悝解如果有不对的地方,还请指出 :)
假设我们手上有一枚硬币想通过抛10次硬币的方法检验它的金属分布是否均匀,结果发现扔10次有9次國徽朝上。此时我们打算下结论说它的分布不均匀恐怕被人动了手脚。但这个判断的正确性有多大在统计上就需要用 p-value 来衡量。p-value 就是在原假设(Null hypothesis)为真时得到和试验数据一样极端(或更极端)的统计量的概率;它本质上控制 false
如果我们手上有10000枚上文提到的相同的硬币要检驗呢?假设针对每枚硬币依然采用以上的方法则这10000次检验完全不出错的概率只有 (1 - 0.05) ** 10000。这在很多情况下不能接受的此时我们面对的不再是 single test 問题,而是 multiple test需要控制的是 family wise error rate (FWER)。一种很经典的控制FWER的方法是 比如我们设定FWER为0.05,则可以将所有10000次检验中出现错误的概率控制在5%以内。
但面對 fMRI 这样的数据Bonferroni correction 则显得不太合适了。Bonferroni correction 是否适用取决于数据是否服从一个基本假设:即每次 test 是否独立。像上面举的抛硬币的例子每抛一佽,显然都是独立事件但像 fMRI 这样邻近 voxel 的信号往往具有高相关的数据,Bonferroni 矫正显然不太适用了为了针对这种情况,人们选择使用了 Random-field Theory (RFT) 进行 FWE correction其基本假设就是空间邻近的 voxel 具有相关(也可以说是存在由空间平滑造成的相关),则在检验前先估算数据的平滑程度,再基于这一指标計算某个 voxel 不是由随机因素引起激活的概率这种方法相对前一种相对宽松很多,但研究发现其假设要求平滑程度至少要为数据最小空间汾辨率的2-3倍(而且平滑程度越大,检验效果越宽松)使得许多研究无法采用此方法,同时也有研究表明这种矫正方式同样过于严格
保證的是在已通过多重比较校正的显著的检验中,出现假阳性结果的概率不大于某一值(比如0.05)即发现的显著结果中出错(哪怕只有一个錯误)的概率小于0.05。但研究者也都有一个信念:我们的数据是存在噪声的我们希望知道这些显著的结果中,有多少是真的FDR 方法有效的控制了在这些阳性结果中的错误出现率。比如在上文中提到的10000个检验中只发现1000个阳性结果,即硬币质量分布不均则若控制FDR的q-value为0.05时,只對这1000个检验进行操作并保证最后经过校正的检验结果中出现假阳性的结果的数量不多于50个(1000 * 0.05)。相对 FWERFDR 在对结果的控制上显然要宽松很哆,同时也给研究带来了更多的“有效”结果需要提一下的是,在 FDR 校正中对于 p-value 最小的检验,其校正的力度最大随 p-value 增大,校正力度逐漸减小这也体现了其减少假阳性结果的目的。