何が「強い」とみなされるのか。相関?
統計では、2 つの変数が互いにどのように関係しているかを理解しようとすることがよくあります。たとえば、次のことを知りたいと思うかもしれません。
- 学生の勉強時間と試験の成績との間にはどのような関係があるのでしょうか?
- 外気温とフードトラックで販売されるアイスクリームコーンの数の間にはどのような関係があるのでしょうか?
- マーケティングに費やした費用と、特定のビジネスで得られた総収益との間にはどのような関係があるのでしょうか?
これらの各シナリオでは、2 つの異なる変数間の関係を理解しようとしています。
統計において、2 つの変数間の関係を定量化する最も一般的な方法の 1 つは、2 つの変数間の線形関連性の尺度である ピアソン相関係数を使用することです。 -1 から 1 までの値を持ちます。ここで、
- -1 は、2 つの変数間の完全な負の線形相関を示します。
- 0 は 2 つの変数間に線形相関がないことを示します
- 1 は、2 つの変数間の完全な正の線形相関を示します。
多くの場合rで表されるこの数値は、2 つの変数間の関係の強さを理解するのに役立ちます。 rがゼロから遠ざかるほど、2 つの変数間の関係は強くなります。
2 つの変数には強い正の相関関係がある場合もあれば、強い負の相関関係がある場合もあることに注意することが重要です。
強い正の相関: 1 つの変数の値が増加すると、他の変数の値も同様に増加します。たとえば、学生が勉強に費やす時間が長いほど、試験の得点は高くなる傾向があります。勉強時間と試験のスコアには強い正の相関関係があります。
強い負の相関: 1 つの変数の値が増加すると、もう 1 つの変数の値は減少する傾向があります。たとえば、鶏が高齢になると、産む卵の数が少なくなる傾向があります。鶏の年齢と卵の生産量には強い負の相関関係があります。
次の表は、 rの値に基づいて 2 つの変数間の関係の強さを解釈するための経験則を示しています。
rの絶対値 | 関係の強さ |
---|---|
r < 0.25 | 関係なし |
0.25 < r < 0.5 | 弱い関係 |
0.5 < r < 0.75 | 適度な関係 |
r > 0.75 | 強い関係 |
rの絶対値が0.75より大きい場合、2 つの変数間の相関関係は強いとみなされます。ただし、「強い」相関の定義は分野によって異なる場合があります。
医学
たとえば、医療分野では、「強い」関係の定義ははるかに低いことがよくあります。特定の薬の服用と心臓発作の減少との関係がr = 0.3 である場合、これは他の分野では「弱い陽性」の関係とみなされる可能性がありますが、医学ではこれは十分に重要であるため、心臓発作の可能性を減らすために薬を服用する価値があります。心臓発作を起こしている。
人事
人事などの別の分野では、より低い相関関係がより頻繁に使用される可能性もあります。たとえば、大学の成績と仕事のパフォーマンスの相関関係は、およそr = 0.16であることが示されています。これはかなり低いですが、企業が少なくとも面接プロセス中に考慮する必要があるほど重要です。
テクノロジー
また、テクノロジーのような分野では、変数間の相関関係が「強い」とみなされるためには、場合によってははるかに高い必要がある場合があります。たとえば、ある企業が自動運転車を開発し、その車の方向転換の判断と事故が起こる確率との相関関係がr = 0.95である場合、これはおそらくその車が安全であると考えるには低すぎるでしょう。自動運転車はr = 0.95です。間違った決定は致命的になる可能性があります。
相関関係を表示する
どのような分野で作業している場合でも、研究している 2 つの変数の散布図を作成すると、少なくともそれらの間の関係を視覚的に調べることができるので役立ちます。
たとえば、12 人の身長と体重を示す次のデータセットがあるとします。
生データを見るだけでは、これら 2 つの変数の関係を理解するのは少し困難です。ただし、X 軸に身長、Y 軸に体重を指定した散布図を作成すると、関係を理解しやすくなります。
2 つの変数の間には明らかに正の関係があります。
点群を作成することは、他に 2 つの理由から良い考えです。
(1) 散布図を使用すると、相関関係に影響を与える外れ値を特定できます。
極端な外れ値はピアソン相関係数を大きく変える可能性があります。以下の例を考えてみましょう。変数XとYのピアソン相関係数はr = 0.00です。
しかしここで、データセットに外れ値があると想像してください。
この外れ値により、相関はr = 0.878になります。この 1 つのデータ ポイントによって相関関係が完全に変化し、実際には存在しないにもかかわらず、変数XとYの間に強い関係があるかのように見えます。
(2) 散布図は、変数間の非線形関係を特定するのに役立ちます。
ピアソン相関係数は、2 つの変数が線形関係にあるかどうかを簡単に示します。しかし、たとえピアソン相関係数が 2 つの変数に相関関係がないことを示しているとしても、それらには依然としてある種の非線形関係がある可能性があります。これが、散布図の作成が役立つもう 1 つの理由です。
たとえば、相関関係がr = 0.00である変数XとYの間の以下の散布図を考えてみましょう。
変数には明らかに線形関係はありませんが、非線形関係はあります。y 値は単に x 値を二乗したものです。相関係数だけではこの関係を検出できませんが、散布図では検出できます。
結論
要約すれば:
- 一般に、0.75 を超える相関は、2 つの変数間の「強い」相関があると見なされます。
- ただし、この経験則は地域によって異なる場合があります。たとえば、技術分野と比較して医療分野では相関関係がはるかに弱いと考えられる場合があります。何が強力であると考えられるかを決定するには、ドメイン固有の専門知識を使用するのが最善です。
- 相関関係を使用して 2 つの変数間の関係を説明する場合、散布図も作成すると便利です。これにより、データ セット内の外れ値や潜在的な非線形関係を特定できるようになります。
追加リソース
「弱い」相関とは何ですか?
相関行列計算機
相関行列の見方