二峰性分布とは何ですか?
二峰性分布は、 2 つのモードを持つ確率分布です。
記述統計では、データセット内の最も一般的な値を指すために「モード」という用語がよく使用されますが、この場合、「モード」という用語はグラフ内の極大値を指します。
二峰性分布を表示すると、これら 2 つのモードを表す 2 つの異なる「ピーク」に気づくでしょう。
これは、ピークが 1 つだけある単峰分布とは異なります。
次のことを覚えておくと、2 つの違いを思い出すことができます。
- 「ビ」=2
- 「団結」=一つ
ほとんどの統計コースでは、正規分布などの単峰分布を使用してさまざまなトピックを説明しますが、実際には二峰分布が頻繁に現れるため、それを認識して解釈する方法を知っておくと役立ちます。
注:二峰性分布は、 多峰性分布の特殊なタイプです。
二峰性分布の例
二峰性分布の例をいくつか示します。
例 #1: レストランのピーク時間
特定のレストランの顧客の時間ごとの分布を視覚化するグラフを作成した場合、昼食時間にピークがあり、夕食時間に別のピークがある二峰性分布に従っていることがわかるでしょう。
例番号2: 2 つの植物種の平均高さ
野原を歩き回り、さまざまな植物の高さを測定するとします。気づかないうちに、あなたは 2 つの異なる種のサイズを測定していることになります。1 つは非常に大きく、もう 1 つは非常に小さいです。身長の分布を視覚化するグラフを作成した場合、グラフは二峰性分布に従います。
例 #3: 試験結果
教師が自分のクラスの生徒に試験を行うとします。試験のために勉強した学生もいれば、勉強しなかった学生もいました。教師が試験結果のグラフを作成すると、勉強しなかった生徒の低得点付近にピークがあり、勉強した生徒の高得点付近に別のピークがある二峰性分布に従います。
二峰性分布の原因は何ですか?
一般に、二峰性分布を引き起こす原因は 2 つあります。
1. いくつかの根本的な現象。
二峰性分布は、特定の基礎的な現象が原因で発生することがよくあります。
たとえば、人々はランチとディナーの 2 つの異なる時間にレストランで食事をする傾向があるため、レストランを訪れる 1 時間ごとの顧客の数は二峰性分布に従います。この根底にある人間の行動が二峰性分布の起源です。
2. 2 つの異なるグループがグループ化されます。
二峰性分布は、気付かずに 2 つの異なるグループを単純に分析した場合にも発生することがあります。
たとえば、同じ畑に 2 つの異なる種が生えていることに気づかずに、ある畑の植物の高さを測定した場合、グラフを作成すると二峰性の分布が見られます。
二峰性分布を分析する方法
私たちは平均値または中央値を使用して分布を記述することがよくあります。これにより、分布の「中心」がどこにあるのかがわかるからです。
残念ながら、二峰性分布の場合、平均と中央値を知ることは役に立ちません。たとえば、上の例の生徒の試験の平均点は 81 です。
ただし、81 点近くのスコアを獲得した生徒はほとんどいませんでした。この場合、平均値は誤解を招きます。実際、ほとんどの生徒のスコアは 74 か 88 程度でした。
二峰性分布を分析および解釈するより良い方法は、単純にデータを 2 つの異なるグループに分割し、各グループの中心と分布を分析することです。
たとえば、試験結果を「低いスコア」と「高いスコア」に分けて、各グループの平均と標準偏差を求めることができます。
分析結果を共有していて、データが二峰性分布に従っている場合は、分布に 2 つの異なる「ピーク」があり、その分布にのみピークがあることが視聴者に明確にわかるように、上に示したようなヒストグラムを作成すると役立ちます。 1 つの大きなデータセットとしてではなく、各ピークを個別に分析する必要があります。