Press統計とは何ですか?
統計では、次の 2 つの理由から回帰モデルを当てはめます。
(2) 1 つ以上の説明変数の値に基づいて応答変数の値を予測します。
私たちの目標が(2)応答変数の値を予測することである場合、そのために可能な限り最良の回帰モデルを使用していることを確認したいと考えます。
新しいデータに対して最良の予測を行う回帰モデルを見つけるために使用できる指標の 1 つは、「予測残差二乗和」を表すPRESS 統計です。
次のように計算されます。
プレス = Σ(e i / (1-h ii )) 2
金:
- e i : i 番目の残基。
- h ii :モデルの適合に対するi 番目の観測値の影響 (「てこ比」とも呼ばれる) の尺度。
複数の回帰モデルが与えられた場合、PRESS が最も低いモデルが、新しいデータセットで最高のパフォーマンスを発揮するモデルとして選択される必要があります。
次の例は、R の 3 つの異なる線形回帰モデルの PRESS 統計を計算する方法を示しています。
例: PRESS 統計の計算
3 つの説明変数x1 、 x2 、 x3と応答変数 y を含むデータセットがあるとします。
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
次のコードは、 lm()関数を使用して 3 つの異なる回帰モデルをこのデータセットに適合させる方法を示しています。
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
次のコードは、各モデルの PRESS 統計を計算する方法を示しています。
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
PRESS 統計が最も低いモデルは、PRESS 統計が519.6435のモデル 2 であることがわかります。したがって、新しいデータセットで予測を行うのに最適なモデルとしてこのモデルを選択します。