Hoe qq-plots te gebruiken om de normaliteit te controleren


Een QQ-plot, een afkorting van ‘quantile-quantile’, wordt gebruikt om te evalueren of een dataset mogelijk afkomstig is van een theoretische distributie.

In de meeste gevallen wordt dit type plot gebruikt om te bepalen of een dataset al dan niet een normale verdeling volgt.

Als de gegevens normaal verdeeld zijn, liggen de punten op een QQ-plot op een rechte diagonale lijn.

Omgekeerd geldt dat hoe significanter de punten in de grafiek afwijken van een rechte diagonale lijn, hoe kleiner de kans dat de gegevensset een normale verdeling volgt.

De volgende voorbeelden laten zien hoe u QQ-plots in R kunt maken om de normaliteit te controleren.

Voorbeeld 1: QQ-plot voor normale gegevens

De volgende code laat zien hoe u een normaal verdeelde gegevensset met 200 waarnemingen genereert en een QQ-plot voor de gegevensset in R maakt:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create QQ plot
qqnorm(data)
qqline(data)

We kunnen zien dat de punten voornamelijk langs de rechte diagonale lijn liggen, met enkele kleine afwijkingen langs elk van de staarten.

Op basis van deze grafiek kunnen we veilig aannemen dat deze dataset normaal verdeeld is.

Voorbeeld 2: QQ-plot voor niet-normale gegevens

De volgende code laat zien hoe u een QQ-plot maakt voor een gegevensset die een exponentiële verdeling volgt met 200 waarnemingen:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create QQ plot
qqnorm(data)
qqline(data)

We zien dat de punten flink afwijken van de diagonale lijn. Dit geeft duidelijk aan dat de dataset niet normaal verdeeld is.

Dit zou logisch moeten zijn, aangezien we hebben gespecificeerd dat de gegevens een exponentiële verdeling moeten volgen.

QQ-plots en histogrammen

Opgemerkt moet worden dat QQ-plots een manier zijn om visueel te controleren of een dataset al dan niet een normale verdeling volgt.

Een andere manier om de normaliteit visueel te controleren, is door een histogram van de gegevensset te maken. Als de gegevens in het histogram ongeveer de vorm van een belcurve volgen, kunnen we aannemen dat de gegevensset normaal verdeeld is.

Zo kunt u bijvoorbeeld als volgt een histogram maken voor de eerder normaal verdeelde gegevensset:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create a histogram to visualize the distribution
hist(data) 

En zo kunt u een histogram maken voor de dataset die een exponentiële eerdere verdeling volgt:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create a histogram to visualize the distribution
hist(data) 

We zien dat het histogram helemaal niet op een belcurve lijkt, wat duidelijk aangeeft dat de gegevens geen normale verdeling volgen.

Aanvullende bronnen

Wat is de normaliteitsaanname in de statistiek?
Hoe maak je een QQ-plot in R
Hoe u een QQ-plot maakt in Excel
Hoe u een QQ-plot maakt in Python

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert