Was ist die normalitätsannahme in der statistik?
Viele statistische Tests basieren auf der sogenannten Normalitätsannahme .
Diese Hypothese besagt, dass wir eine perfekte Glockenkurve beobachten sollten, wenn wir viele unabhängige Zufallsstichproben aus einer Grundgesamtheit sammeln und einen interessierenden Wert (wie den Stichprobenmittelwert ) berechnen und dann ein Histogramm erstellen, um die Verteilung der Stichprobenmittelwerte zu visualisieren.
Viele statistische Techniken gehen bei Daten von dieser Annahme aus, darunter:
1. T-Test mit einer Stichprobe : Es wird davon ausgegangen, dass die Stichprobendaten normalverteilt sind.
2. T-Test mit zwei Stichproben : Es wird angenommen, dass die beiden Stichproben normalverteilt sind.
3. ANOVA : Es wird angenommen, dass die Modellresiduen normalverteilt sind.
4. Lineare Regression : Es wird angenommen, dass die Modellresiduen normalverteilt sind.
Wenn diese Annahme nicht erfüllt ist, werden die Ergebnisse dieser Tests unzuverlässig und wir sind nicht in der Lage, unsere aus den Datenstichproben gezogenen Schlussfolgerungen zuverlässig auf die Gesamtbevölkerung zu übertragen. Deshalb ist es wichtig zu prüfen, ob diese Hypothese erfüllt ist.
Es gibt zwei gängige Methoden, um zu überprüfen, ob diese Normalitätsannahme erfüllt ist:
1. Visualisieren Sie Normalität
2. Führen Sie einen formellen statistischen Test durch
In den folgenden Abschnitten werden die spezifischen Diagramme erläutert, die Sie erstellen können, und die spezifischen statistischen Tests, die Sie durchführen können, um die Normalität zu überprüfen.
Visualisieren Sie Normalität
Eine schnelle und informelle Möglichkeit, zu überprüfen, ob ein Datensatz normalverteilt ist, ist die Erstellung eines Histogramms oder QQ-Diagramms.
1. Histogramm
Wenn das Histogramm eines Datensatzes ungefähr glockenförmig ist, sind die Daten wahrscheinlich normalverteilt.
2. QQLand
Ein QQ-Diagramm, kurz für „Quantil-Quantil“, ist eine Art Diagramm, das theoretische Quantile entlang der x-Achse (d. h. wo sich Ihre Daten befinden würden, wenn sie einer Normalverteilung folgen würden) und Quantile von Stichproben entlang der y-Achse anzeigt. (d. h. wo sich Ihre Daten tatsächlich befinden).
Wenn die Datenwerte einer annähernd geraden Linie folgen, die einen Winkel von 45 Grad bildet, wird davon ausgegangen, dass die Daten normalverteilt sind.
Führen Sie einen formellen statistischen Test durch
Sie können auch einen formalen statistischen Test durchführen, um festzustellen, ob ein Datensatz normalverteilt ist.
Wenn der p-Wert des Tests unter einem bestimmten Signifikanzniveau liegt (z. B. α = 0,05), verfügen Sie über ausreichende Beweise dafür, dass die Daten nicht normalverteilt sind.
Es gibt drei statistische Tests, die üblicherweise zum Testen der Normalität verwendet werden:
1. Der Jarque-Bera-Test
- So führen Sie einen Jarque-Bera-Test in Excel durch
- So führen Sie einen Jarque-Bera-Test in R durch
- So führen Sie einen Jarque-Bera-Test in Python durch
2. Der Shapiro-Wilk-Test
- So führen Sie einen Shapiro-Wilk-Test in R durch
- So führen Sie einen Shapiro-Wilk-Test in Python durch
3. Der Kolmogorov-Smirnov-Test
- So führen Sie einen Kolmogorov-Smirnov-Test in Excel durch
- So führen Sie einen Kolmogorov-Smirnov-Test in R durch
- So führen Sie einen Kolmogorov-Smirnov-Test in Python durch
Was tun, wenn die Normalitätsannahme verletzt wird?
Sollte sich herausstellen, dass Ihre Daten nicht normalverteilt sind, haben Sie zwei Möglichkeiten:
1. Transformieren Sie die Daten.
Eine Möglichkeit besteht darin, die Daten einfach so zu transformieren , dass sie normaler verteilt werden. Zu den gängigen Transformationen gehören:
- Log-Transformation: Transformieren Sie Daten von y nach log(y) .
- Quadratwurzeltransformation: Daten von y in √y transformieren
- Kubikwurzeltransformation: Transformieren Sie Daten von y zu y 1/3
- Box-Cox-Transformation: Transformieren Sie Daten mit einem Box-Cox-Verfahren
Durch die Durchführung dieser Transformationen wird die Verteilung der Datenwerte im Allgemeinen normaler verteilt.
2. Führen Sie einen nichtparametrischen Test durch
Statistische Tests, die die Annahme einer Normalität treffen, werden als parametrische Tests bezeichnet. Es gibt aber auch eine Familie sogenannter nichtparametrischer Tests, die diese Normalitätsannahme nicht voraussetzen.
Wenn sich herausstellt, dass Ihre Daten nicht normalverteilt sind, können Sie einfach einen nichtparametrischen Test durchführen. Hier sind einige nichtparametrische Versionen gängiger statistischer Tests:
Parametrisches Testen | Nichtparametrisches Äquivalent |
---|---|
Ein Beispiel-T-Test | Ein Beispiel für einen von Wilcoxon signierten Rangtest |
T-Test bei zwei Stichproben | Mann-Whitney-U-Test |
T-Test für gepaarte Stichproben | Zwei Proben des Wilcoxon-Signed-Rang-Tests |
Einweg-ANOVA | Kruskal-Wallis-Test |
Jeder dieser nichtparametrischen Tests ermöglicht die Durchführung eines statistischen Tests, ohne die Normalitätsannahme zu erfüllen.
Zusätzliche Ressourcen
Die vier Hypothesen werden in einem T-Test formuliert
Die vier Annahmen der linearen Regression
Die vier Hypothesen der ANOVA