R で回帰出力を解釈する方法
R で線形回帰モデルを当てはめるには、 lm()コマンドを使用できます。
回帰モデルの出力を表示するには、 summary()コマンドを使用します。
このチュートリアルでは、R の回帰出力の各値を解釈する方法について説明します。
例: R での回帰出力の解釈
次のコードは、予測変数としてhp 、 drat 、 wt を、応答変数としてmpg を使用して、統合されたmtcarsデータセットで重線形回帰モデルを近似する方法を示しています。
#fit regression model using hp, drat, and wt as predictors model <- lm(mpg ~ hp + drat + wt, data = mtcars) #view model summary summary(model) Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
出力内の各値を解釈する方法は次のとおりです。
電話
Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars)
このセクションでは、回帰モデルで使用した式を思い出します。応答変数としてmpg を使用し、予測変数としてhp 、 drat 、およびwtを使用したことがわかります。各変数はmtcarsと呼ばれるデータセットから取得されました。
残基
Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078
このセクションには、回帰モデルからの残差の分布の概要が表示されます。残差は、回帰モデルの観測値と予測値の差であることを思い出してください。
最小残差は-3.3598 、残差中央値は-0.5099 、最大残差は5.7078でした。
係数
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
このセクションには、回帰モデルの推定係数が表示されます。これらの係数を使用して、次の推定回帰式を形成できます。
mpg = 29.39 – 0.03*hp + 1.62*drat – 3.23*重量
各予測子変数について、次の値を受け取ります。
推定:推定された係数。これは、他のすべての予測変数が一定のままであると仮定した場合、予測変数の 1 単位の増加に関連する応答変数の平均増加を示します。
標準。誤差: 係数の標準誤差です。これは、係数の推定値の不確実性の尺度です。
t 値:これは、(推定値) / (標準誤差) として計算される、予測子変数の t 統計量です。
Pr(>|t|):これは、t 統計量に対応する p 値です。この値が特定のアルファ レベル (たとえば、0.05) を下回る場合、予測変数は統計的に有意であると言われます。
この回帰モデルでどの予測変数が有意であるかを決定するために α = 0.05 のアルファ レベルを使用した場合、 hpとwtは統計的に有意な予測変数であるが、 drat はそうではないと言えます。
モデルの適切性の評価
Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
この最後のセクションには、回帰モデルがデータセットにどの程度適合しているかを評価するのに役立つさまざまな数値が表示されます。
残差標準誤差:これは、観測値と回帰直線の間の平均距離を示します。値が小さいほど、回帰モデルはデータにうまく適合できます。
自由度は nk-1 として計算されます。ここで、n = 観測値の総数、k = 予測子の数です。この例では、mtcars には 32 の観測値があり、回帰モデルで 3 つの予測子を使用したため、自由度は 32 – 3 – 1 = 28 になります。
多重 R 二乗:これは決定係数と呼ばれます。これは、 応答変数の分散のどの程度が予測変数によって説明できるかを示します。
この値の範囲は 0 から 1 です。値が 1 に近づくほど、予測変数は応答変数の値を予測できるようになります。
調整済み R 二乗:これは、モデル内の予測子の数に基づいて調整された R 二乗の修正バージョンです。これは常に R の 2 乗より小さくなります。
調整済み R 二乗は、異なる数の予測変数を使用する異なる回帰モデルの適合を比較するのに役立ちます。
F 統計量:回帰モデルが独立変数を含まないモデルよりもデータへの適合性が高いかどうかを示します。基本的に、回帰モデル全体が有用かどうかをテストします。
p 値:これは、F 統計量に対応する p 値です。この値が特定の有意水準 (0.05 など) を下回る場合、回帰モデルは予測変数を使用しないモデルよりもデータによく適合します。
回帰モデルを構築するときは、この p 値が一定の有意レベルを下回ることが望ましいと考えます。これは、予測変数が応答変数の値を予測する際に実際に役立つことを示しているためです。