So führen sie eine explorative datenanalyse in excel durch
Einer der ersten Schritte in jedem Datenanalyseprojekt ist die explorative Datenanalyse .
Dabei wird ein Datensatz auf drei Arten untersucht:
1. Fassen Sie einen Datensatz mithilfe deskriptiver Statistiken zusammen.
2. Visualisieren Sie einen Datensatz mithilfe von Diagrammen.
3. Identifizieren Sie fehlende Werte.
Durch die Durchführung dieser drei Aktionen können Sie verstehen, wie die Werte in einem Datensatz verteilt sind, und problematische Werte erkennen, bevor Sie mit dem Hypothesentest , der Anpassung eines Regressionsmodells oder der Durchführung einer statistischen Modellierung fortfahren.
Das folgende Schritt-für-Schritt-Beispiel zeigt, wie Sie eine explorative Datenanalyse in Excel durchführen.
Schritt 1: Erstellen Sie den Datensatz
Erstellen wir zunächst einen einfachen Datensatz mit Informationen über 10 verschiedene Basketballspieler:
Dieser Datensatz enthält drei Variablen (Punkte, Rebounds, Assists) und einige Variablen haben leere oder NA-Werte, was in realen Datensätzen häufig vorkommt.
Schritt 2: Fassen Sie die Daten zusammen
Als nächstes können wir die Mittel-, Median-, Quartil-, Minimal- und Maximalwerte für jede der drei Variablen in diesem Datensatz berechnen:
Hier ist die Formel, die wir für jede Zelle in Spalte B verwendet haben:
- B13 : =DURCHSCHNITT( B2:B11 )
- B14 : =MEDIAN( B2:B11 )
- B15 : =QUARTIL( B2:B11 , 1)
- B16 : =QUARTIL( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
Anschließend haben wir jede Formel nach rechts gezogen, damit wir dieselben Metriken für die Werte in den Spalten C und D berechnen konnten.
Durch die Berechnung dieser deskriptiven Statistiken für jede Variable können wir ein gutes Verständnis der Werteverteilung für jede Variable erlangen.
Hinweis : Jede Formel ignoriert bei der Berechnung der einzelnen beschreibenden Statistiken automatisch leere oder NA-Werte.
Schritt 3: Visualisieren Sie die Daten
Wir können auch Diagramme erstellen, um die Werte des Datensatzes zu visualisieren.
Um beispielsweise die Verteilung der Werte für die Variable „Punkte“ zu visualisieren, können wir die Werte im Zellbereich B2:B11 hervorheben, dann auf die Registerkarte „Einfügen“ im oberen Menüband klicken und dann auf das Histogramm- Symbol in der Gruppe „Grafiken “ klicken :
Das folgende Histogramm wird automatisch erstellt:
Mit diesem Histogramm können Sie die Verteilung der von den Spielern erzielten Punkte visualisieren.
Wir können zum Beispiel sehen:
- 4 Spieler erzielten zwischen 10 und 15 Punkte.
- 1 Spieler erzielte zwischen 15 und 20 Punkte.
- 2 Spieler erzielten zwischen 20 und 25 Punkte.
- 3 Spieler erzielten zwischen 25 und 30 Punkte.
Wir können diesen Vorgang für jede Variable in unserem Datensatz wiederholen, um die Werteverteilung für jede Variable zu visualisieren.
Schritt 4: Identifizieren Sie fehlende Werte
Wir können auch die folgende Formel verwenden, um die Anzahl der fehlenden Werte in Spalte B zu zählen:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
Wir können diese Formel in Zelle B19 eingeben und sie dann nach rechts ziehen, um die Anzahl der fehlenden Werte für jede Variable im Datensatz zu berechnen:
Aus dem Ergebnis können wir sehen:
- In der Spalte „Punkte“ fehlen 0 Werte.
- In der Spalte „Rebounds“ fehlen 2 Werte.
- In der Spalte „Hilfe“ fehlt 1 Wert.
Wir haben nun einige grundlegende explorative Datenanalysen zu diesem Datensatz abgeschlossen und ein ziemlich gutes Verständnis dafür gewonnen, wie die Werte für jede Variable in diesem Datensatz verteilt sind.
Verwandte Themen: So ersetzen Sie leere Zellen in Excel durch Nullen
Zusätzliche Ressourcen
In den folgenden Tutorials wird erklärt, wie Sie andere häufige Aufgaben in Excel ausführen:
So berechnen Sie eine Zusammenfassung von fünf Zahlen in Excel
So berechnen Sie den Durchschnitt pro Gruppe in Excel
So berechnen Sie den Maximalwert pro Gruppe in Excel