Hoe scheefheid en kurtosis in sas te berekenen
In de statistiek zijn scheefheid en kurtosis twee manieren om de vorm van een verdeling te meten.
Scheefheid meet de asymmetrie van een verdeling.
- Negatieve scheefheid geeft aan dat de staart zich aan de linkerkant van de verdeling bevindt.
- Een positieve scheefheid geeft aan dat de staart zich aan de rechterkant van de verdeling bevindt.
- Een waarde nul geeft aan dat er geen asymmetrie in de verdeling is, wat betekent dat de verdeling perfect symmetrisch is.
Kurtosis meet of een verdeling zwaar of lichtstaartig is vergeleken met eennormale verdeling .
- De kurtosis van een normale verdeling is 0.
- Als een bepaalde verdeling een kurtosis kleiner dan 0 heeft, wordt er gesproken van playkurtic , wat betekent dat deze de neiging heeft om minder en minder extreme uitschieters te produceren dan de normale verdeling.
- Als een bepaalde verdeling een kurtosis groter dan 0 heeft, wordt er gezegd dat deze leptokurtisch is, wat betekent dat deze de neiging heeft om meer uitschieters te produceren dan de normale verdeling.
Om de scheefheid en kurtosis van variabelen in SAS te berekenen, kunt u de instructies SKEWNESS en KURTOSIS in PROC MEANS gebruiken.
Het volgende voorbeeld laat zien hoe u deze instructies in de praktijk kunt gebruiken.
Voorbeeld: scheefheid en kurtosis berekenen in SAS
Stel dat we de volgende dataset in SAS hebben die informatie bevat over verschillende basketbalspelers:
/*create dataset*/ data my_data; input team $points assists; datalines ; At 10 2 At 17 5 At 17 6 At 18 3 At 15 0 B 10 2 B 14 5 B 13 4 B 29 0 B 25 2 C 12 1 C 30 1 C 34 3 C 12 4 C 11 7 ; run ; /*view dataset*/ proc print data =my_data;
We kunnen PROC MEANS gebruiken met de SKEWNESS- en KURTOSIS- instructies om de scheefheid en kurtosis van elke numerieke variabele in de dataset te berekenen:
/*calculate skewness and kurtosis for each numeric variable*/ proc means data =my_data SKEWNESS KURTOSIS ; run ;
De uitvoertabel geeft de scheefheids- en kurtosis-waarden weer voor elke numerieke variabele in de dataset:
(1) punten
- De puntenvariabele heeft een scheefheid van 1,009 . Omdat deze waarde groter is dan 0, betekent dit dat de staart zich aan de rechterkant van de verdeling bevindt.
- De puntenvariabele heeft een kurtosis van -0,299 . Omdat deze waarde kleiner is dan 0 betekent dit dat de verdeling iets minder uitschieters en minder extreme waarden kent dan de normale verdeling.
(2) hulp
- De assists-variabele heeft een scheefheid van 0,304 . Omdat deze waarde groter is dan 0, betekent dit dat de staart zich aan de rechterkant van de verdeling bevindt.
- De supportvariabele heeft een kurtosis van -0,782 . Omdat deze waarde kleiner is dan 0, betekent dit dat de verdeling minder uitschieters en minder extreme waarden heeft dan de normale verdeling.
Om de verdeling van waarden voor elke numerieke variabele in de dataset te visualiseren, kunt u PROC UNIVARIATE gebruiken om histogrammen voor de punt- en hulpvariabelen te maken:
/*create histograms for points and assists variables*/
proc univariate data =my_data;
var points assists;
histogram points assists;
run ;
Dit levert het volgende histogram op voor de puntenvariabele :
En het volgende histogram voor de assistentievariabele :
Aanvullende bronnen
In de volgende zelfstudies wordt uitgelegd hoe u andere veelvoorkomende taken in SAS kunt uitvoeren:
Hoe beschrijvende statistieken in SAS te berekenen
Hoe frequentietabellen in SAS te maken
Hoe percentielen in SAS te berekenen
Draaitabellen maken in SAS