ランダムフォレストの簡単な紹介


一連の予測変数と応答変数の間の関係が非常に複雑な場合、多くの場合、非線形手法を使用してそれらの間の関係をモデル化します。

そのような方法の 1 つは、 分類および回帰ツリー(CART と略されることが多い) です。これは、一連の予測子変数を使用して、応答変数の値を予測する決定木を作成します。

長年の経験と平均ホームランを使用してプロ野球選手の年俸を予測する回帰ツリーの例。

デシジョン ツリーの利点は、解釈と視覚化が簡単であることです。問題は、それらは高い分散に悩まされる傾向があることです。つまり、データセットを 2 つの半分に分割し、両方の半分に決定木を適用すると、結果は大きく異なる可能性があります。

デシジョン ツリーの分散を減らす 1 つの方法は、 バギングとして知られる方法を使用することです。これは次のように機能します。

1.元のデータセットからb 個のブートストラップ サンプルを取得します。

2.各ブートストラップ サンプルのデシジョン ツリーを作成します。

3.各ツリーからの予測を平均して、最終モデルを取得します。

このアプローチの利点は、一般に、クラスター化されたモデルにより、単一のデシジョン ツリーと比較してテスト エラー率が向上することです。

欠点は、データセット内に非常に強力な予測子がある場合、バギング ツリー コレクションからの予測が高度に相関する可能性があることです。この場合、バギングされたツリーのほとんどまたはすべてが最初の分割にこの予測子を使用し、その結果、互いに類似し、相関性の高い予測を持つツリーが生成されます。

したがって、最終モデルに到達するために各ツリーからの予測を平均するとき、このモデルは単一の決定木と比較して実際には分散を削減しない可能性があります。

この問題を回避する 1 つの方法は、ランダム フォレストとして知られる方法を使用することです。

ランダムフォレストとは何ですか?

バギングと同様に、ランダム フォレストも元のデータセットからブートストラップされたサンプルを取得します。

ただし、ブートストラップ サンプルごとに決定木を構築する場合、ツリー内の分割が考慮されるたびに、 m個の予測子のランダム サンプルのみが、 p個の予測子の完全なセット間での分割の候補とみなされます。

ランダム フォレストがモデルを作成するために使用する完全な方法は次のとおりです。

1.元のデータセットからb 個のブートストラップ サンプルを取得します。

2.各ブートストラップ サンプルのデシジョン ツリーを作成します。

  • ツリーを構築するとき、分割が考慮されるたびに、 m 個の予測子のランダムなサンプルのみが、 p 個の予測子の完全なセットから分割の候補とみなされます。

3.各ツリーからの予測を平均して、最終モデルを取得します。

この方法を使用すると、ランダム フォレスト内の木のコレクションが、バギングによって生成された木に関して装飾されます。

したがって、各ツリーからの平均予測を取得して最終モデルに到達すると、ばらつきが少なくなり、袋詰めされたモデルよりもテスト エラー率が低くなる傾向があります。

ランダム フォレストを使用する場合、通常、決定木を分割するたびにm = √ p予測子を分割候補として考慮します。

たとえば、データセット内に合計p = 16 の予測子がある場合、通常、各分割の潜在的な候補としてm = √16 = 4 つの予測子のみが考慮されます。

技術的なメモ:

興味深いことに、 m = pを選択した場合 (つまり、すべての予測子を各分割で候補として考慮した場合)、これは単にバギングを使用することと同じになります。

out-of-bag エラーの推定

バギングと同様に、バッグ外推定を使用してランダム フォレスト モデルのテスト誤差を計算できます。

各ブートストラップ サンプルには、元のデータセットからの観測値の約 2/3 が含まれていることがわかります。ツリーに適合させるために使用されなかった残りの 3 分の 1 の観測値は、アウトオブバッグ (OOB) 観測値と呼ばれます。

元のデータセットの i 番目の観測値は、その観測値が OOB であった各ツリーから平均予測を取得することで予測できます。

このアプローチを使用すると、元のデータセット内のn個の観測値すべてについて予測を行うことができ、テスト誤差の有効な推定値である誤差率を計算できます。

このアプローチを使用してテスト誤差を推定する利点は、特にデータセットが大きい場合に、k 分割相互検証よりもはるかに高速であることです。

ランダムフォレストの長所と短所

ランダム フォレストには次の利点があります。

  • ほとんどの場合、ランダム フォレストは、バッグ化されたモデル、特に単一のデシジョン ツリーよりも精度が向上します。
  • ランダム フォレストは外れ値に対して堅牢です。
  • ランダム フォレストを使用する場合、前処理は必要ありません。

ただし、ランダム フォレストには次のような潜在的な欠点があります。

  • それらは解釈が難しいです。
  • 大規模なデータセットを利用すると、計算量が多くなる (つまり、時間がかかる) 可能性があります。

実際には、データ サイエンティストは通常、予測精度を最大化するためにランダム フォレストを使用するため、解釈が容易ではないという事実は通常は問題になりません。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です