Hoe de vuistregel in r toe te passen
De vuistregel , ook wel de 68-95-99.7-regel genoemd, stelt dat voor een gegeven dataset met een normale verdeling:
- 68% van de datawaarden ligt binnen één standaardafwijking van het gemiddelde.
- 95% van de gegevenswaarden ligt binnen twee standaarddeviaties van het gemiddelde.
- 99,7% van de gegevenswaarden vallen binnen drie standaarddeviaties van het gemiddelde.
In deze tutorial leggen we uit hoe je de vuistregel in R op een bepaalde dataset kunt toepassen.
Het toepassen van de vuistregel in R
De functie pnorm() in R retourneert de waarde van de cumulatieve dichtheidsfunctie van de normale verdeling.
Deze functie gebruikt de volgende basissyntaxis:
pnorm(q, gemiddelde, sd)
Goud:
- q : normaal verdeelde willekeurige variabelewaarde
- gemiddelde : gemiddelde verdeling
- sd : standaardafwijking van de distributie
We kunnen de volgende syntaxis gebruiken om het gebied onder de normale verdelingscurve te vinden dat tussen verschillende standaardafwijkingen ligt:
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
Uit het resultaat kunnen we bevestigen:
- 68% van de datawaarden ligt binnen één standaardafwijking van het gemiddelde.
- 95% van de gegevenswaarden ligt binnen twee standaarddeviaties van het gemiddelde.
- 99,7% van de gegevenswaarden vallen binnen drie standaarddeviaties van het gemiddelde.
De volgende voorbeelden laten zien hoe u de vuistregel in de praktijk kunt gebruiken met verschillende datasets.
Voorbeeld 1: De empirische regel toepassen op een gegevensset in R
Stel dat we een normaal verdeelde dataset hebben met een gemiddelde van 7 en een standaarddeviatie van 2,2 .
We kunnen de volgende code gebruiken om te bepalen welke waarden 68%, 95% en 99,7% van de gegevens bevatten:
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
Uit deze uitvoer kunnen we zien:
- 68% van de gegevens ligt tussen 4,8 en 9,2
- 95% van de gegevens ligt tussen 2,6 en 11,4
- 99,7% van de gegevens ligt tussen 0,4 en 13,6
Voorbeeld 2: Bepaal welk percentage gegevens tussen bepaalde waarden valt
Stel je voor dat we een normaal verdeelde dataset hebben met een gemiddelde van 100 en een standaarddeviatie van 5.
Stel dat we willen weten welk percentage van de gegevens in deze verdeling tussen de waarden 99 en 105 valt.
We kunnen de functie pnorm( ) gebruiken om het antwoord te vinden:
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
We zien dat 42,06% van de gegevens voor deze verdeling tussen de waarden 99 en 105 ligt.
Aanvullende bronnen
Hoe u de vuistregel toepast in Excel
Problemen bij het oefenen van vuistregels
Rekenmachine met vuistregels