Hoe regressie-uitvoer in r te interpreteren
Om een lineair regressiemodel in R te passen, kunnen we de opdracht lm() gebruiken.
Om de uitvoer van het regressiemodel weer te geven, kunnen we vervolgens de opdracht summary() gebruiken.
In deze zelfstudie wordt uitgelegd hoe u elke waarde van de regressie-uitvoer in R interpreteert.
Voorbeeld: Regressie-uitvoer interpreteren in R
De volgende code laat zien hoe u een meervoudig lineair regressiemodel kunt aanpassen aan de geïntegreerde mtcars- gegevensset met behulp van hp , drat en wt als voorspellende variabelen en mpg als responsvariabele:
#fit regression model using hp, drat, and wt as predictors model <- lm(mpg ~ hp + drat + wt, data = mtcars) #view model summary summary(model) Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
Zo interpreteert u elke waarde in de uitvoer:
Telefoongesprek
Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars)
Dit gedeelte herinnert ons aan de formule die we in ons regressiemodel hebben gebruikt. We kunnen zien dat we mpg als responsvariabele en hp , drat en wt als voorspellende variabelen hebben gebruikt. Elke variabele kwam uit de dataset genaamd mtcars .
Residu
Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078
Deze sectie geeft een samenvatting weer van de verdeling van residuen uit het regressiemodel. Bedenk dat een residu het verschil is tussen de waargenomen waarde en de voorspelde waarde van het regressiemodel.
Het minimale residu was -3,3598 , het mediane residu was -0,5099 en het maximale residu was 5,7078 .
Coëfficiënten
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
In deze sectie worden de geschatte coëfficiënten van het regressiemodel weergegeven. We kunnen deze coëfficiënten gebruiken om de volgende geschatte regressievergelijking te vormen:
mpg = 29,39 – 0,03*pk + 1,62*drat – 3,23*gewicht
Voor elke voorspellende variabele ontvangen we de volgende waarden:
Schatting: de geschatte coëfficiënt. Dit vertelt ons de gemiddelde toename van de responsvariabele die gepaard gaat met een toename van één eenheid in de voorspellende variabele, ervan uitgaande dat alle andere voorspellende variabelen constant blijven.
Standaard. Fout : Dit is de standaardfout van de coëfficiënt. Dit is een maatstaf voor de onzekerheid van onze schatting van de coëfficiënt.
t-waarde: Dit is de t-statistiek voor de voorspellende variabele, berekend als (schatting) / (standaardfout).
Pr(>|t|): Dit is de p-waarde die overeenkomt met de t-statistiek. Als deze waarde onder een bepaald alfaniveau ligt (bijvoorbeeld 0,05), wordt de voorspellende variabele statistisch significant genoemd.
Als we een alfaniveau van α = 0,05 zouden gebruiken om te bepalen welke voorspellers significant waren in dit regressiemodel, zouden we zeggen dat hp en wt statistisch significante voorspellers zijn, terwijl drat dat niet is.
Beoordeling van de geschiktheid van het model
Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
In dit laatste gedeelte worden verschillende cijfers weergegeven die ons helpen te beoordelen hoe goed het regressiemodel bij onze dataset past.
Residuele standaardfout: dit vertelt ons de gemiddelde afstand tussen de waargenomen waarden en de regressielijn. Hoe kleiner de waarde, hoe beter het regressiemodel bij de gegevens kan passen.
Vrijheidsgraden worden berekend als nk-1 waarbij n = totaal aantal waarnemingen en k = aantal voorspellers. In dit voorbeeld heeft mtcars 32 waarnemingen en hebben we 3 voorspellers gebruikt in het regressiemodel, dus de vrijheidsgraden zijn 32 – 3 – 1 = 28.
Meerdere R-kwadraat: Dit wordt de determinatiecoëfficiënt genoemd. Het vertelt ons hoeveel van de variantie in de responsvariabele kan worden verklaard door de voorspellende variabelen.
Deze waarde varieert van 0 tot 1. Hoe dichter deze bij 1 ligt, hoe beter de voorspellende variabelen in staat zijn de waarde van de responsvariabele te voorspellen.
Aangepaste R-kwadraat: Dit is een aangepaste versie van R-kwadraat die is aangepast op basis van het aantal voorspellers in het model. Het is altijd kleiner dan R kwadraat.
Aangepaste R-kwadraat kan nuttig zijn voor het vergelijken van de fit van verschillende regressiemodellen die verschillende aantallen voorspellende variabelen gebruiken.
F-statistiek: Geeft aan of het regressiemodel beter aansluit bij de gegevens dan een model dat geen onafhankelijke variabelen bevat. In wezen wordt getest of het regressiemodel als geheel bruikbaar is.
p-waarde: Dit is de p-waarde die overeenkomt met de F-statistiek. Als deze waarde onder een bepaald significantieniveau ligt (bijvoorbeeld 0,05), dan past het regressiemodel beter bij de gegevens dan een model zonder voorspellers.
Bij het bouwen van regressiemodellen hopen we dat deze p-waarde onder een bepaald significantieniveau ligt, omdat dit aangeeft dat de voorspellende variabelen daadwerkelijk nuttig zijn bij het voorspellen van de waarde van de responsvariabele.
Aanvullende bronnen
Hoe eenvoudige lineaire regressie uit te voeren in R
Hoe meervoudige lineaire regressie uit te voeren in R
Wat is een goede R-kwadraatwaarde?