So berechnen sie ein konfidenzintervall für einen regressionsabschnitt


Eine einfache lineare Regression wird verwendet, um die Beziehung zwischen einer Prädiktorvariablen und einer Antwortvariablen zu quantifizieren.

Diese Methode findet eine Zeile, die am besten zu einem Datensatz passt, und hat die folgende Form:

ŷ = b 0 + b 1 x

Gold:

  • ŷ : Der geschätzte Antwortwert
  • b 0 : Der Ursprung der Regressionslinie
  • b 1 : Die Steigung der Regressionsgeraden
  • x : Der Wert der Vorhersagevariablen

Wir sind oft am Wert von b 1 interessiert, der uns die durchschnittliche Änderung der Antwortvariablen angibt, die mit einem Anstieg der Prädiktorvariablen um eine Einheit einhergeht.

In seltenen Fällen sind wir jedoch auch am Wert von b0 interessiert, der uns den Durchschnittswert der Antwortvariablen angibt, wenn die Prädiktorvariable Null ist.

Mit der folgenden Formel können wir ein Konfidenzintervall für den Wert von β 0 , der wahren Populationskonstante, berechnen:

Konfidenzintervall für β 0 : b 0 ± t α/2, n-2 * se(b 0 )

Das folgende Beispiel zeigt, wie man in der Praxis ein Konfidenzintervall für einen Achsenabschnitt berechnet.

Beispiel: Konfidenzintervall für den Regressionsabschnitt

Angenommen, wir möchten ein einfaches lineares Regressionsmodell anpassen, indem wir die untersuchten Stunden als Prädiktorvariable und Prüfungsergebnisse als Antwortvariable für 15 Schüler in einer bestimmten Klasse verwenden:

Der folgende Code zeigt, wie dieses einfache lineare Regressionsmodell in R angepasst wird:

 #create data frame
df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-5,140 -3,219 -1,193 2,816 5,772 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65,334 2,106 31,023 1.41e-13 ***
hours 1.982 0.248 7.995 2.25e-06 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared: 0.831, Adjusted R-squared: 0.818 
F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06

Mithilfe der Koeffizientenschätzungen im Ergebnis können wir das angepasste einfache lineare Regressionsmodell wie folgt schreiben:

Punktzahl = 65,334 + 1,982*(Studienstunden)

Der Intercept-Wert beträgt 65,334. Dies zeigt uns, dass die geschätzte durchschnittliche Prüfungspunktzahl für einen Studenten, der null Stunden studiert, bei 65.334 liegt.

Mit der folgenden Formel können wir ein 95 %-Konfidenzintervall für den Achsenabschnitt berechnen:

  • 95 %-KI für β 0 : b 0 ± t α/2, n-2 * se(b 0 )
  • 95 %-KI für β 0 : 65,334 ± t 0,05/2,15-2 * 2,106
  • 95 %-KI für β 0 : 65,334 ± 2,1604 * 2,106
  • 95 %-KI für β 0 : [60,78, 69,88]

Wir interpretieren dies so, dass wir zu 95 % sicher sind, dass die tatsächliche durchschnittliche Prüfungspunktzahl von Studierenden, die keine Stunden lang studieren, zwischen 60,78 und 69,88 liegt.

Hinweis : Wir haben den inversen t-Verteilungsrechner verwendet, um den kritischen t-Wert zu ermitteln, der einem Konfidenzniveau von 95 % mit 13 Freiheitsgraden entspricht.

Vorsichtsmaßnahmen für die Berechnung eines Konfidenzintervalls für einen Regressionsabschnitt

In der Praxis berechnen wir häufig kein Konfidenzintervall für einen Regressionsschnittpunkt, da es normalerweise keinen Sinn ergibt, den Wert des Schnittpunkts in einer Modellregression zu interpretieren.

Angenommen, wir passen ein Regressionsmodell an, das die Körpergröße eines Basketballspielers als Prädiktorvariable und den Punktedurchschnitt pro Spiel als Antwortvariable verwendet.

Es ist nicht möglich, dass ein Spieler null Fuß groß ist, daher wäre es nicht sinnvoll, das Abfangen in diesem Modell wörtlich zu interpretieren.

Es gibt unzählige Szenarien wie dieses, in denen eine Prädiktorvariable nicht den Wert Null annehmen kann. Daher ist es nicht sinnvoll, den ursprünglichen Wert des Modells zu interpretieren oder ein Konfidenzintervall für den Ursprung zu erstellen.

Betrachten Sie beispielsweise die folgenden potenziellen Prädiktorvariablen in einem Modell:

  • Bereich eines Hauses
  • Länge eines Autos
  • Gewicht einer Person

Jede dieser Prädiktorvariablen kann nicht den Wert Null annehmen. Unter diesen Umständen wäre es daher nicht sinnvoll, ein Konfidenzintervall für den Ursprung eines Regressionsmodells zu berechnen.

Zusätzliche Ressourcen

Die folgenden Tutorials bieten zusätzliche Informationen zur linearen Regression:

Einführung in die einfache lineare Regression
Einführung in die multiple lineare Regression
So lesen und interpretieren Sie eine Regressionstabelle
So melden Sie Regressionsergebnisse

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert