Was ist die normalitätsannahme in der statistik?

Von Dr. Benjamin Anderson Juli 26, 2023 Führung Keine Kommentare

Viele statistische Tests basieren auf der sogenannten Normalitätsannahme .

Diese Hypothese besagt, dass wir eine perfekte Glockenkurve beobachten sollten, wenn wir viele unabhängige Zufallsstichproben aus einer Grundgesamtheit sammeln und einen interessierenden Wert (wie den Stichprobenmittelwert ) berechnen und dann ein Histogramm erstellen, um die Verteilung der Stichprobenmittelwerte zu visualisieren.

Viele statistische Techniken gehen bei Daten von dieser Annahme aus, darunter:

1. T-Test mit einer Stichprobe : Es wird davon ausgegangen, dass die Stichprobendaten normalverteilt sind.

2. T-Test mit zwei Stichproben : Es wird angenommen, dass die beiden Stichproben normalverteilt sind.

3. ANOVA : Es wird angenommen, dass die Modellresiduen normalverteilt sind.

4. Lineare Regression : Es wird angenommen, dass die Modellresiduen normalverteilt sind.

Wenn diese Annahme nicht erfüllt ist, werden die Ergebnisse dieser Tests unzuverlässig und wir sind nicht in der Lage, unsere aus den Datenstichproben gezogenen Schlussfolgerungen zuverlässig auf die Gesamtbevölkerung zu übertragen. Deshalb ist es wichtig zu prüfen, ob diese Hypothese erfüllt ist.

Es gibt zwei gängige Methoden, um zu überprüfen, ob diese Normalitätsannahme erfüllt ist:

1. Visualisieren Sie Normalität

2. Führen Sie einen formellen statistischen Test durch

In den folgenden Abschnitten werden die spezifischen Diagramme erläutert, die Sie erstellen können, und die spezifischen statistischen Tests, die Sie durchführen können, um die Normalität zu überprüfen.

Visualisieren Sie Normalität

Eine schnelle und informelle Möglichkeit, zu überprüfen, ob ein Datensatz normalverteilt ist, ist die Erstellung eines Histogramms oder QQ-Diagramms.

1. Histogramm

Wenn das Histogramm eines Datensatzes ungefähr glockenförmig ist, sind die Daten wahrscheinlich normalverteilt.

2. QQLand

Ein QQ-Diagramm, kurz für „Quantil-Quantil“, ist eine Art Diagramm, das theoretische Quantile entlang der x-Achse (d. h. wo sich Ihre Daten befinden würden, wenn sie einer Normalverteilung folgen würden) und Quantile von Stichproben entlang der y-Achse anzeigt. (d. h. wo sich Ihre Daten tatsächlich befinden).

Wenn die Datenwerte einer annähernd geraden Linie folgen, die einen Winkel von 45 Grad bildet, wird davon ausgegangen, dass die Daten normalverteilt sind.

Führen Sie einen formellen statistischen Test durch

Sie können auch einen formalen statistischen Test durchführen, um festzustellen, ob ein Datensatz normalverteilt ist.

Wenn der p-Wert des Tests unter einem bestimmten Signifikanzniveau liegt (z. B. α = 0,05), verfügen Sie über ausreichende Beweise dafür, dass die Daten nicht normalverteilt sind.

Es gibt drei statistische Tests, die üblicherweise zum Testen der Normalität verwendet werden:

1. Der Jarque-Bera-Test

2. Der Shapiro-Wilk-Test

3. Der Kolmogorov-Smirnov-Test

Was tun, wenn die Normalitätsannahme verletzt wird?

Sollte sich herausstellen, dass Ihre Daten nicht normalverteilt sind, haben Sie zwei Möglichkeiten:

1. Transformieren Sie die Daten.

Eine Möglichkeit besteht darin, die Daten einfach so zu transformieren , dass sie normaler verteilt werden. Zu den gängigen Transformationen gehören:

Log-Transformation: Transformieren Sie Daten von y nach log(y) .
Quadratwurzeltransformation: Daten von y in √y transformieren
Kubikwurzeltransformation: Transformieren Sie Daten von y zu y ^1/3
Box-Cox-Transformation: Transformieren Sie Daten mit einem Box-Cox-Verfahren

Durch die Durchführung dieser Transformationen wird die Verteilung der Datenwerte im Allgemeinen normaler verteilt.

2. Führen Sie einen nichtparametrischen Test durch

Statistische Tests, die die Annahme einer Normalität treffen, werden als parametrische Tests bezeichnet. Es gibt aber auch eine Familie sogenannter nichtparametrischer Tests, die diese Normalitätsannahme nicht voraussetzen.

Wenn sich herausstellt, dass Ihre Daten nicht normalverteilt sind, können Sie einfach einen nichtparametrischen Test durchführen. Hier sind einige nichtparametrische Versionen gängiger statistischer Tests:

Parametrisches Testen	Nichtparametrisches Äquivalent
Ein Beispiel-T-Test	Ein Beispiel für einen von Wilcoxon signierten Rangtest
T-Test bei zwei Stichproben	Mann-Whitney-U-Test
T-Test für gepaarte Stichproben	Zwei Proben des Wilcoxon-Signed-Rang-Tests
Einweg-ANOVA	Kruskal-Wallis-Test

Jeder dieser nichtparametrischen Tests ermöglicht die Durchführung eines statistischen Tests, ohne die Normalitätsannahme zu erfüllen.

Zusätzliche Ressourcen

Die vier Hypothesen werden in einem T-Test formuliert
Die vier Annahmen der linearen Regression
Die vier Hypothesen der ANOVA

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen