Excel で探索的データ分析を実行する方法
データ分析プロジェクトの最初のステップの 1 つは、探索的データ分析です。
これには、次の 3 つの方法でデータセットを探索することが含まれます。
1.記述統計を使用して一連のデータを要約します。
2. グラフを使用して一連のデータを視覚化します。
3. 欠損値を特定します。
これら 3 つのアクションを実行することで、データセット内の値がどのように分布しているかを理解し、仮説検定、回帰モデルの適合、または統計モデリングの実行に進む前に、問題のある値を検出できます。
次の段階的な例は、Excel で探索的データ分析を実行する方法を示しています。
ステップ 1: データセットを作成する
まず、10 人の異なるバスケットボール選手に関する情報を含む単純なデータセットを作成しましょう。
このデータセットには 3 つの変数 (ポイント、リバウンド、アシスト) が含まれており、一部の変数には空の値または NA 値が含まれていますが、これは実際のデータセットでは一般的です。
ステップ 2: データを要約する
次に、このデータセット内の 3 つの変数のそれぞれについて、平均値、中央値、四分位値、最小値、最大値を計算できます。
B 列の各セルに使用した数式は次のとおりです。
- B13 : =平均( B2:B11 )
- B14 : =MEDIAN( B2:B11 )
- B15 : =QUARTILE( B2:B11 , 1)
- B16 : =QUARTILE( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
次に、列 C と D の値に対して同じメトリクスを計算できるように、各式を右にドラッグしました。
これらの記述統計を変数ごとに計算することで、各変数の値の分布をよく理解できます。
注: 各記述統計量を計算する際、各式は空白または NA 値を自動的に無視します。
ステップ 3: データを視覚化する
グラフを作成してデータセットの値を視覚化することもできます。
たとえば、Points 変数の値の分布を視覚化するには、セル範囲B2:B11の値を強調表示し、上部のリボンに沿って[挿入]タブをクリックし、次に[グラフィックス]グループの [ヒストグラム]アイコンをクリックします。 :
次のヒストグラムが自動的に作成されます。
このヒストグラムを使用すると、プレーヤーが獲得したポイントの分布を視覚化できます。
たとえば、次のことがわかります。
- 4人の選手が10点から15点を獲得した。
- 1 人の選手が 15 ~ 20 点を獲得しました。
- 2人の選手が20点から25点を獲得した。
- 3人の選手が25点から30点を獲得した。
データセット内の変数ごとにこのプロセスを繰り返して、各変数の値の分布を視覚化できます。
ステップ 4: 欠損値を特定する
次の式を使用して、列 B の欠損値の数をカウントすることもできます。
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
この数式をセルB19に入力し、右にドラッグして、データセット内の各変数の欠損値の数を計算します。
結果から次のことがわかります。
- Points 列には欠損値が0あります。
- リバウンド列に欠損値が2 つあります。
- [ヘルプ] 列に欠落値が1 つあります。
このデータセットに対する基本的な探索的データ分析をいくつか完了し、このデータセット内の各変数の値がどのように分布しているかをかなりよく理解しました。
追加リソース
次のチュートリアルでは、Excel で他の一般的なタスクを実行する方法について説明します。
Excelで5つの数値の合計を計算する方法
Excelでグループごとの平均を計算する方法
Excelでグループごとの最大値を計算する方法