Excel で探索的データ分析を実行する方法

によるベンジャミン・アンダーソン博士 7月 19, 2023 ガイド 0コメント

データ分析プロジェクトの最初のステップの 1 つは、探索的データ分析です。

これには、次の 3 つの方法でデータセットを探索することが含まれます。

1.記述統計を使用して一連のデータを要約します。

2. グラフを使用して一連のデータを視覚化します。

3. 欠損値を特定します。

これら 3 つのアクションを実行することで、データセット内の値がどのように分布しているかを理解し、仮説検定、回帰モデルの適合、または統計モデリングの実行に進む前に、問題のある値を検出できます。

次の段階的な例は、Excel で探索的データ分析を実行する方法を示しています。

まず、10 人の異なるバスケットボール選手に関する情報を含む単純なデータセットを作成しましょう。

このデータセットには 3 つの変数 (ポイント、リバウンド、アシスト) が含まれており、一部の変数には空の値または NA 値が含まれていますが、これは実際のデータセットでは一般的です。

次に、このデータセット内の 3 つの変数のそれぞれについて、平均値、中央値、四分位値、最小値、最大値を計算できます。

B 列の各セルに使用した数式は次のとおりです。

B13 : =平均( B2:B11 )
B14 : =MEDIAN( B2:B11 )
B15 : =QUARTILE( B2:B11 , 1)
B16 : =QUARTILE( B2:B11 , 3)
B17 : =MIN( B2:B11 )
B18 : =MAX( B2:B11 )

次に、列 C と D の値に対して同じメトリクスを計算できるように、各式を右にドラッグしました。

これらの記述統計を変数ごとに計算することで、各変数の値の分布をよく理解できます。

注: 各記述統計量を計算する際、各式は空白または NA 値を自動的に無視します。

グラフを作成してデータセットの値を視覚化することもできます。

たとえば、Points 変数の値の分布を視覚化するには、セル範囲B2:B11の値を強調表示し、上部のリボンに沿って[挿入]タブをクリックし、次に[グラフィックス]グループの [ヒストグラム]アイコンをクリックします。 :

次のヒストグラムが自動的に作成されます。

このヒストグラムを使用すると、プレーヤーが獲得したポイントの分布を視覚化できます。

たとえば、次のことがわかります。

データセット内の変数ごとにこのプロセスを繰り返して、各変数の値の分布を視覚化できます。

次の式を使用して、列 B の欠損値の数をカウントすることもできます。

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

この数式をセルB19に入力し、右にドラッグして、データセット内の各変数の欠損値の数を計算します。

結果から次のことがわかります。

このデータセットに対する基本的な探索的データ分析をいくつか完了し、このデータセット内の各変数の値がどのように分布しているかをかなりよく理解しました。

関連: Excel で空白セルをゼロに置換する方法

次のチュートリアルでは、Excel で他の一般的なタスクを実行する方法について説明します。

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る