ヒストグラムを比較する方法 (例付き)
ヒストグラムは、一連のデータ内の値の分布を視覚化できるグラフの一種です。
X 軸はデータセットの値を示し、Y 軸は各値の頻度を示します。
ヒストグラムは、データセット内の値の分布をすぐに理解できるため便利です。 2 つの異なるデータセットを比較する場合にも役立ちます。
2 つ以上のヒストグラムを比較する場合、次の 3 つの異なる質問に答えることができます。
1.中央値はどのように比較されますか?
中央値が各ヒストグラムの中央付近にあると大まかに推定でき、分布の中央値を比較できるようになります。
2. 分散はどのように比較されますか?
どのヒストグラムがより分散しているかを視覚的に確認でき、どの分布がより分散した値を持つかを把握できます。
3. 非対称性はどのように比較されますか?
ヒストグラムのプロットの左側に「尾」がある場合、それは負に歪んでいると言えます。逆に、ヒストグラムのプロットの右側に「尾」がある場合、それはプラスに歪んでいると言えます。各ヒストグラムを視覚的に確認して歪度を比較できます。
次の例は、2 つの異なるヒストグラムを比較し、これら 3 つの質問に答える方法を示しています。
例: ヒストグラムの比較
200 人の生徒が 1 つの学習方法を使用して試験の準備をし、別の 200 人の生徒が別の学習方法を使用して同じ試験の準備をすると仮定します。
学生の各グループの試験結果を比較するために次のヒストグラムを作成するとします。
これらのヒストグラムを比較すると、次の 3 つの質問に答えることができます。
1.中央値はどのように比較されますか?
ヒストグラムを見ただけでは各分布の正確な中央値はわかりませんが、方法 1 を使用した生徒の試験スコアの中央値が方法 1 を使用した生徒の試験スコアの中央値よりも高いことは明らかです。方法2.
方法 1 の中央値は約 84、方法 2 の中央値は約 78 であると推定できます。
2. 分散はどのように比較されますか?
方法 2 のヒストグラム値は、方法 1 のヒストグラム値よりもはるかに分散しており、方法 2 を使用した生徒の試験結果の分散がはるかに大きいことがわかります。
3. 非対称性はどのように比較されますか?
ヒストグラムを見ると、ヒストグラムの右側に伸びている「裾」が示すように、方法 1 のテスト スコアの分布がわずかに右に偏っているように見えます。
ただし、方法 2 の検査結果の分布には「裾」がないようです。これは、分布がほとんど偏っていないか、偏っていないことを示しています。
おまけ: これら 2 つのヒストグラムを作成するために R で使用したコードは次のとおりです。
library (ggplot2)
#make this example reproducible
set. seeds (0)
#create data frame
df <- data. frame (method=rep(c(' Method 1 ', ' Method 2 '), each= 200 ),
Score=c(rnorm( 200 , mean= 84 , sd= 2 ),
rnorm( 200 , mean= 78 , sd= 4 )))
#create histogram of scores for each method
ggplot(df, aes(x=Score)) +
geom_histogram(fill=' steelblue ', color=' black ') +
facet_wrap(.~method, nrow= 2 ) +
labs(title=' Exam Scores by Study Method ')
追加リソース
次のチュートリアルでは、ヒストグラムを使用して他の一般的なタスクを実行する方法について説明します。