Hoe pr(>|t|) te interpreteren in de uitvoer van regressiemodellen in r


Telkens wanneer u een lineaire regressie in R uitvoert, wordt de uitvoer van uw regressiemodel in het volgende formaat weergegeven:

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) 10.0035 5.9091 1.693 0.1513  
x1 1.4758 0.5029 2.935 0.0325 *
x2 -0.7834 0.8014 -0.978 0.3732 

De kolom Pr(>|t|) vertegenwoordigt de p-waarde die is gekoppeld aan de waarde in de kolom t-waarde .

Als de p-waarde onder een bepaald significantieniveau ligt (bijvoorbeeld α = 0,05), wordt aangenomen dat de voorspellende variabele een statistisch significante relatie heeft met de responsvariabele in het model.

Het volgende voorbeeld laat zien hoe u de waarden in de kolom Pr(>|t|) voor een bepaald regressiemodel moet interpreteren.

Voorbeeld: hoe Pr(>|t|)-waarden moeten worden geïnterpreteerd

Stel dat we een meervoudig lineair regressiemodel willen fitten met behulp van voorspellende variabelen x1 en x2 en een enkele responsvariabele y .

De volgende code laat zien hoe u een dataframe maakt en een regressiemodel aan de gegevens koppelt:

 #create data frame
df <- data. frame (x1=c(1, 3, 3, 4, 4, 5, 6, 6),
                 x2=c(7, 7, 5, 6, 5, 4, 5, 6),
                 y=c(8, 8, 9, 9, 13, 14, 17, 14))

#fit multiple linear regression model
model <- lm(y ~ x1 + x2, data=df)

#view model summary
summary(model)

Call:
lm(formula = y ~ x1 + x2, data = df)

Residuals:
      1 2 3 4 5 6 7 8 
 2.0046 -0.9470 -1.5138 -2.2062 1.0104 -0.2488 2.0588 -0.1578 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) 10.0035 5.9091 1.693 0.1513  
x1 1.4758 0.5029 2.935 0.0325 *
x2 -0.7834 0.8014 -0.978 0.3732  
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.867 on 5 degrees of freedom
Multiple R-squared: 0.7876, Adjusted R-squared: 0.7026 
F-statistic: 9.268 on 2 and 5 DF, p-value: 0.0208

Zo interpreteert u de waarden in de kolom Pr(>|t|):

  • De p-waarde voor de voorspellende variabele x1 is 0,0325 . Omdat deze waarde kleiner is dan 0,05, is er een statistisch significante relatie met de responsvariabele in het model.
  • De p-waarde voor de voorspellende variabele x2 is 0,3732 . Omdat deze waarde niet kleiner is dan 0,05, heeft deze geen statistisch significante relatie met de responsvariabele in het model.

De significantiecodes onder de coëfficiëntentabel vertellen ons dat een enkel sterretje (*) naast de p-waarde van 0,0325 betekent dat de p-waarde statistisch significant is bij α = 0,05.

Hoe wordt Pr(>|t|) eigenlijk berekend?

Hier ziet u hoe de waarde van Pr(>|t|) feitelijk wordt berekend:

Stap 1: Bereken de t-waarde

Eerst berekenen we de t-waarde met behulp van de volgende formule:

  • t-waarde = Schatting / Std. Fout

Hier ziet u bijvoorbeeld hoe u de t-waarde voor de voorspellende variabele x1 berekent:

 #calculate t-value
1.4758 / .5029

[1] 2.934579

Stap 2: Bereken de p-waarde

Vervolgens berekenen we de p-waarde. Dit vertegenwoordigt de waarschijnlijkheid dat de absolute waarde van de t-verdeling groter is dan 2,935.

We kunnen de volgende formule in R gebruiken om deze waarde te berekenen:

  • p-waarde = 2 * pt (abs (t-waarde), residuele df, onderstaart = ONWAAR)

Hier ziet u bijvoorbeeld hoe u de p-waarde berekent voor een t-waarde van 2,935 met 5 resterende vrijheidsgraden:

 #calculate p-value
2 * pt( abs (2.935), 5, lower. tail = FALSE )

[1] 0.0324441

Merk op dat deze p-waarde overeenkomt met de p-waarde in de bovenstaande regressie-uitvoer.

Opmerking: De waarde van de resterende vrijheidsgraden bevindt zich onderaan de regressie-uitvoer. In ons voorbeeld bleek dit 5 te zijn:

 Residual standard error: 1.867 on 5 degrees of freedom

Aanvullende bronnen

Hoe eenvoudige lineaire regressie uit te voeren in R
Hoe meervoudige lineaire regressie uit te voeren in R
Hoe u meerdere lineaire regressieresultaten kunt plotten in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert