So berechnen sie ein konfidenzintervall für einen regressionsabschnitt

Von Dr. Benjamin Anderson Juli 22, 2023 Führung Keine Kommentare

Eine einfache lineare Regression wird verwendet, um die Beziehung zwischen einer Prädiktorvariablen und einer Antwortvariablen zu quantifizieren.

Diese Methode findet eine Zeile, die am besten zu einem Datensatz passt, und hat die folgende Form:

ŷ = b ₀ + b ₁ x

Gold:

ŷ : Der geschätzte Antwortwert
b ₀ : Der Ursprung der Regressionslinie
b ₁ : Die Steigung der Regressionsgeraden
x : Der Wert der Vorhersagevariablen

Wir sind oft am Wert von b ₁ interessiert, der uns die durchschnittliche Änderung der Antwortvariablen angibt, die mit einem Anstieg der Prädiktorvariablen um eine Einheit einhergeht.

In seltenen Fällen sind wir jedoch auch am Wert von _b0 interessiert, der uns den Durchschnittswert der Antwortvariablen angibt, wenn die Prädiktorvariable Null ist.

Mit der folgenden Formel können wir ein Konfidenzintervall für den Wert von β ₀ , der wahren Populationskonstante, berechnen:

Konfidenzintervall für β ₀ : b ₀ ± t _{α/2, n-2} * se(b ₀ )

Das folgende Beispiel zeigt, wie man in der Praxis ein Konfidenzintervall für einen Achsenabschnitt berechnet.

Beispiel: Konfidenzintervall für den Regressionsabschnitt

Angenommen, wir möchten ein einfaches lineares Regressionsmodell anpassen, indem wir die untersuchten Stunden als Prädiktorvariable und Prüfungsergebnisse als Antwortvariable für 15 Schüler in einer bestimmten Klasse verwenden:

Der folgende Code zeigt, wie dieses einfache lineare Regressionsmodell in R angepasst wird:

 #create data frame
df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-5,140 -3,219 -1,193 2,816 5,772 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65,334 2,106 31,023 1.41e-13 ***
hours 1.982 0.248 7.995 2.25e-06 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared: 0.831, Adjusted R-squared: 0.818 
F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06

Mithilfe der Koeffizientenschätzungen im Ergebnis können wir das angepasste einfache lineare Regressionsmodell wie folgt schreiben:

Punktzahl = 65,334 + 1,982*(Studienstunden)

Der Intercept-Wert beträgt 65,334. Dies zeigt uns, dass die geschätzte durchschnittliche Prüfungspunktzahl für einen Studenten, der null Stunden studiert, bei 65.334 liegt.

Mit der folgenden Formel können wir ein 95 %-Konfidenzintervall für den Achsenabschnitt berechnen:

95 %-KI für β ₀ : b ₀ ± t _{α/2, n-2} * se(b ₀ )
95 %-KI für β ₀ : 65,334 ± t _0,05/2,15-2 * 2,106
95 %-KI für β ₀ : 65,334 ± 2,1604 * 2,106
95 %-KI für β ₀ : [60,78, 69,88]

Wir interpretieren dies so, dass wir zu 95 % sicher sind, dass die tatsächliche durchschnittliche Prüfungspunktzahl von Studierenden, die keine Stunden lang studieren, zwischen 60,78 und 69,88 liegt.

Hinweis : Wir haben den inversen t-Verteilungsrechner verwendet, um den kritischen t-Wert zu ermitteln, der einem Konfidenzniveau von 95 % mit 13 Freiheitsgraden entspricht.

Vorsichtsmaßnahmen für die Berechnung eines Konfidenzintervalls für einen Regressionsabschnitt

In der Praxis berechnen wir häufig kein Konfidenzintervall für einen Regressionsschnittpunkt, da es normalerweise keinen Sinn ergibt, den Wert des Schnittpunkts in einer Modellregression zu interpretieren.

Angenommen, wir passen ein Regressionsmodell an, das die Körpergröße eines Basketballspielers als Prädiktorvariable und den Punktedurchschnitt pro Spiel als Antwortvariable verwendet.

Es ist nicht möglich, dass ein Spieler null Fuß groß ist, daher wäre es nicht sinnvoll, das Abfangen in diesem Modell wörtlich zu interpretieren.

Es gibt unzählige Szenarien wie dieses, in denen eine Prädiktorvariable nicht den Wert Null annehmen kann. Daher ist es nicht sinnvoll, den ursprünglichen Wert des Modells zu interpretieren oder ein Konfidenzintervall für den Ursprung zu erstellen.

Betrachten Sie beispielsweise die folgenden potenziellen Prädiktorvariablen in einem Modell:

Bereich eines Hauses
Länge eines Autos
Gewicht einer Person

Jede dieser Prädiktorvariablen kann nicht den Wert Null annehmen. Unter diesen Umständen wäre es daher nicht sinnvoll, ein Konfidenzintervall für den Ursprung eines Regressionsmodells zu berechnen.

Zusätzliche Ressourcen

Die folgenden Tutorials bieten zusätzliche Informationen zur linearen Regression:

Einführung in die einfache lineare Regression
Einführung in die multiple lineare Regression
So lesen und interpretieren Sie eine Regressionstabelle
So melden Sie Regressionsergebnisse

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Beispiel: Konfidenzintervall für den Regressionsabschnitt

Vorsichtsmaßnahmen für die Berechnung eines Konfidenzintervalls für einen Regressionsabschnitt

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen