カテゴリ変数間の相関関係を計算する方法


連続数値変数間の相関を計算するには、 ピアソン相関係数をよく使用します。

ただし、カテゴリカル変数、つまり次のような名前またはラベルを持つ変数間の相関を計算するには、別のメトリックを使用する必要があります。

  • 婚姻状況(独身、既婚、離婚)
  • 喫煙状況(喫煙者、非喫煙者)
  • 目の色(青、茶色、緑)

カテゴリ変数間の相関関係を計算するために一般的に使用される 3 つの尺度があります。

1. 四重相関:バイナリ カテゴリ変数間の相関を計算するために使用されます。

2. 多相関相関:順序カテゴリ変数間の相関を計算するために使用されます。

3. Cramer’s V:名義カテゴリ変数間の相関関係を計算するために使用されます。

次のセクションでは、これら 3 つの測定値をそれぞれ計算する方法の例を示します。

メトリクス 1: 四絨毛相関

四重相関は、バイナリ カテゴリ変数間の相関を計算するために使用されます。バイナリ変数は、2 つの可能な値のうち 1 つだけを取ることができる変数であることに注意してください。

四絨毛相関値の範囲は -1 ~ 1 です。-1 は強い負の相関を示し、0 は相関がないことを示し、1 は強い正の相関を示します。

たとえば、性別が政党の好みと関連しているかどうかを知りたいとします。そこで、100 人の有権者から単純に無作為にサンプルを採取し、政党の好みについて尋ねます。

次の表は、調査の結果を示しています。

四絨毛相関

各カテゴリ変数はバイナリであるため、このシナリオでは四重相関を使用します。つまり、各変数は 2 つの可能な値のみを取ることができます。

R で次のコードを使用して、2 つの変数間の四重相関を計算できます。

 library (psych)

#create 2x2 table
data = matrix(c(19, 12, 30, 39), nrow= 2 )

#view table
data

#calculate tetrachoric correlation
tetrachoric(data)

tetrachoric correlation 
[1] 0.27

四重相関は0.27であることがわかります。この値は非常に低く、性別と政党の好みの間には (もしあれば) 弱い関連性があることを示しています。

メトリクス 2: ポリコーラ相関

多相関相関は、順序カテゴリ変数間の相関を計算するために使用されます。順序変数とは、取り得る値が自然な順序を持つ変数であることを思い出してください。

多色相関値の範囲は -1 ~ 1 で、-1 は強い負の相関を示し、0 は相関がないことを示し、1 は強い正の相関を示します。

たとえば、2 つの異なる映画評価会社の映画評価間に高い相関関係があるかどうかを知りたいとします。

私たちは各代理店に、20 の異なる映画を 1 から 3 のスケールで評価してもらいます。1 は「悪い」、2 は「悪い」、3 は「良い」を示します。

次の表に結果を示します。

R で次のコードを使用して、2 つの機関の評価間のポリチョーリック相関を計算できます。

 library (polycor)

#define movie ratings
x <- c(1, 1, 2, 2, 3, 2, 2, 3, 2, 3, 3, 2, 1, 2, 2, 1, 1, 1, 2, 2)
y <- c(1, 1, 2, 1, 3, 3, 3, 2, 2, 3, 3, 3, 2, 2, 2, 1, 2, 1, 3, 3)

#calculate polychoric correlation between ratings
polychor(x, y)

[1] 0.7828328

ポリコリック相関は0.78であることがわかります。この値は非常に高く、各機関の評価間に強い正の相関があることを示しています。

指標 3: クラマーの V

Cramer の V は、名義カテゴリ変数間の相関関係を計算するために使用されます。名義変数とは、カテゴリ ラベルは付いていますが、自然な順序を持たない変数であることに注意してください。

Cramer’s V の値の範囲は 0 ~ 1 で、0 は変数間に関連性がないことを示し、1 は変数間に強い関連性があることを示します。

たとえば、目の色と性別の間に相関関係があるかどうかを知りたいとします。したがって、50 人に質問し、次の結果が得られます。

R で次のコードを使用して、これら 2 つの変数の Cramer’s V を計算できます。

 library (rcompanion)

#create table
data = matrix(c(6, 9, 8, 5, 12, 10), nrow= 2 )

#view table
data

     [,1] [,2] [,3]
[1,] 6 8 12
[2,] 9 5 10

#calculate Cramer's V
cramerV(data)

Cramer V 
  0.1671

Cramer の V は0.1671であることがわかります。この値は非常に低く、性別と目の色の間には弱い関連性があることを示しています。

追加リソース

ピアソン相関係数の概要
四絨毛相関の概要
カテゴリ変数または量的変数: 違いは何ですか?
測定レベル: 名目、順序、間隔、比率

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です