クラスター分散とは何ですか? (定義&例)
統計学では、クラスター分散は単に 2 つ以上のクラスター分散の平均を指します。
「プールされた」という言葉は、グループ間の共通分散の 1 つの数値を取得するために 2 つ以上のグループ分散を「プール」していることを示します。
実際には、プールされた分散は、2 つの母集団の平均が等しいかどうかを判断するために使用される2 サンプル t 検定で最もよく使用されます。
2 つのサンプル間のプールされた分散は一般にsp 2で示され、次のように計算されます。
s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
2 つのサンプル サイズ (n 1と n 2 ) が等しい場合、式は次のように単純化されます。
s p 2 = (s 1 2 + s 2 2 ) / 2
クラスター化ギャップを計算する場合
2 つの母集団の平均を比較したい場合、次の 2 つの統計検定を使用できる可能性があります。
1. 2 サンプル t 検定: この検定は、2 つのサンプル間の分散がほぼ等しいと仮定します。この検定を使用する場合、プールされた分散が計算されます。
2.ウェルチの t 検定: この検定では、2 つのサンプル間の分散がほぼ等しいとは想定されていません。この検定を使用する場合、プールされた分散は計算されません。代わりに、別の式を使用します。
どのテストを使用するかを決定するには、次の経験則を使用します。
一般規則:最大分散と最小分散の比が 4 未満の場合、分散はほぼ等しいと仮定して、2 標本 t 検定を使用できます。
たとえば、サンプル 1 の分散が 24.5、サンプル 2 の分散が 15.2 であるとします。最大サンプル分散と最小サンプル分散の比率は次のように計算されます。
比率: 24.5 / 15.2 = 1.61
この比率が 4 未満であるため、2 つのグループ間の差異はほぼ等しいと想定できます。したがって、2 サンプルの t 検定を使用します。これは、プールされた分散を計算することを意味します。
グループ化偏差の計算例
2 つの異なる種のカメの平均体重が等しいかどうかを知りたいとします。これをテストするために、次の情報を使用して各集団からランダムにカメのサンプルを収集します。
サンプル 1:
- サンプルサイズ n 1 = 40
- サンプル分散 s 1 2 = 18.5
サンプル 2:
- サンプルサイズ n 2 = 38
- サンプル分散 s 2 2 = 6.7
2 つのサンプル間のプールされた分散を計算する方法は次のとおりです。
- s p 2 = ( (n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)
- s p 2 = ( (40-1)*18.5 + (38-1)*6.7 ) / (40+38-2)
- s p 2 = (39*18.5 + 37*6.7) / (76) = 12.755
プールされた分散は12,755です。
プールされた分散値は、2 つの元の分散 18.5 と 6.7 の間にあることに注意してください。プールされた分散が 2 つのサンプル分散の加重平均にすぎないことを考えると、これは理にかなっています。
ボーナス リソース:このプール分散計算ツールを使用して、2 つのサンプル間のプール分散を自動的に計算します。