ドットプロットとヒストグラム: 違いは何ですか?


データセット内の値の分布を視覚化するためによく使用される 2 つのプロットは、ドット プロットヒストグラムです。

ドット プロットは、 X 軸に沿って個々のデータ値を表示し、点を使用して個々の値の頻度を表します。

ヒストグラムは、 X 軸に沿ってデータ範囲を表示し、長方形のバーを使用して各範囲に属する値の頻度を表します。

次の例は、同じデータ セットに対してドット プロットとヒストグラムを作成する方法を示しています。

例: 同じデータセットのドットプロットとヒストグラムの作成

18 個の値を含む次のデータセットがあるとします。

データ: 1、1、1、1、2、2、2、3、4、5、5、6、6、6、6、7、8、10

このデータセットのドットプロットは次のようになります。

X 軸は個々のデータ値を示し、Y 軸は各値の頻度を示します。

たとえば、その上に 3 つのポイントがあるため、値「2」がデータセット内に 3 回出現することがわかります。同様に、値「3」はその上にドットが 1 つしかないため、1 回だけ表示されることがわかります。

このデータセットのヒストグラムは次のようになります。

きちんとした。

たとえば、7 つの値が 0 ~ 2 の間にあり、2 つの値が 2 ~ 4 の間にあることがわかります。

おまけ: 興味のある方のために、次の R コードを使用して、上に示したドット プロットとヒストグラムを作成しました。

 #define dataset
data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10)

#create dot plot
stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5,
           col = "steelblue", main = "Dot Plot",
           xlab = "Data Values", ylab="Frequency")

#create histogram
hist(data, col='steelblue', main='Histogram', xlab='Data Values')

ドット プロットとヒストグラム: どちらを使用するべきですか?

前述したように、ドット プロットとヒストグラムを使用して、データ セット内の値の分布を視覚化できます。

経験則として、データセットが小さい場合は、各値が何回出現するかを正確に確認できるため、通常はドット プロットを使用します

逆に、データ セットが大きい場合は、大規模なデータ セット内の個々の値を表す点を作成するのが面倒なため、通常はヒストグラムを使用します

ヒストグラムを使用する唯一の欠点は、個々の値が何回出現するかを正確に知ることができないことであることに注意してください。

たとえば、前のヒストグラムでは 7 つの値が 0 から 2 の間にあることがわかりましたが、1 の値がいくつあるか、2 の値がいくつあるかは正確にはわかりません。

分布の一般的な「形状」を理解したいだけの場合、データセットの個々の値がわからなくても通常は問題ありません。

また、個々の値がわからないため、ヒストグラムを見るだけでは正確な中央値や平均を計算できないことにも注意してください。

追加リソース

次のチュートリアルでは、ヒストグラムに関する追加情報を提供します。

平均ヒストグラムと中央ヒストグラムを推定する方法
ヒストグラムの形状を説明する方法
R でヒストグラムを作成する方法
Python でヒストグラムを作成する方法

次のチュートリアルでは、点プロットに関する追加情報を提供します。

ドットプロットの中心と広がりを見つける方法
Google スプレッドシートでドット プロットを作成する方法
Excel でドット プロットを作成する方法
R でドット プロットを作成する方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です