以下是对卡方检验不同设计情况下条件的详细解释:
一、完全随机设计:
当样本量 n≥40 且理论频数 T≥5 时不需要校正:
样本量较大(n≥40)意味着数据有一定的代表性和稳定性。
理论频数较大(T≥5)说明在假设条件下各个分类的期望频数比较合理,此时直接使用卡方检验公式计算结果是可靠的,不需要进行额外的校正。
当 n≥40 且 1≤T<5 时进行连续性校正:
虽然样本量仍较大,但理论频数处于相对较小的范围(1≤T<5)。在这种情况下,为了使卡方检验结果更加准确,需要进行连续性校正。连续性校正通常是对卡方统计量的计算公式进行调整,以减少由于理论频数较小可能带来的偏差。
若 n<40 或 T<1 则采用 Fisher 确切概率法:
当样本量较小(n<40)时,数据的稳定性和代表性可能不足,卡方检验的结果可能不太可靠。
当理论频数非常小(T<1)时,说明某些分类的期望频数极小,此时卡方检验的假设条件可能不满足,使用 Fisher 确切概率法可以更准确地计算概率,该方法适用于小样本和理论频数极小的情况。
二、配对设计:
当 b+c≥40 时需要校正,b+c<40 时也需要校正:
在配对设计中,通常关注的是两个相关样本之间的差异。b 和 c 可能代表特定的分类情况。
无论 b+c 的值是大于等于 40 还是小于 40,都需要进行校正。这是因为配对设计的数据结构可能导致一些特殊的偏差,校正可以提高检验结果的准确性。
三、行 × 列表设计:
不能有任意一个格子的理论频数小于 1:
如果有格子的理论频数小于 1,意味着该分类的期望频数非常小,这可能导致卡方检验的假设条件不成立,结果不可靠。
且理论频数小于 5 的格子数不能超过总格子数的 1/5:
即使没有理论频数小于 1 的格子,但如果有较多格子的理论频数小于 5,也可能影响卡方检验的准确性。规定理论频数小于 5 的格子数不能超过总格子数的 1/5,是为了保证大部分格子的理论频数处于相对合理的范围,从而使卡方检验结果更加可靠。