適切な r 二乗値はどれくらいですか?
R 二乗は、線形回帰モデルがデータセットにどの程度「適合」するかを測定します。一般に決定係数とも呼ばれる R 二乗は、予測変数によって説明できる応答変数の分散の割合です。
R 二乗値の範囲は 0 ~ 1 です。値 0 は、応答変数が予測変数によってまったく説明できないことを示します。値 1 は、応答変数が予測変数によって誤差なく完全に説明できることを示します。
実際には、R 二乗の値が 0 または 1 になることはおそらくありません。代わりに、0 から 1 までの値が表示される可能性があります。
たとえば、30 の異なる都市の人口規模と花屋の数を含むデータセットがあるとします。人口規模を予測変数として、花屋を応答変数として使用して、単純な線形回帰モデルをデータセットに近似します。回帰結果では、R 2 = 0.2 であることがわかります。これは、花屋の数の変動の 20% が人口規模によって説明できることを示しています。
これは重要な疑問につながります。これは R 二乗にとって「適切な」値なのでしょうか?
この質問に対する答えは、回帰モデルの目標によって異なります。知っておくべきこと:
1.予測変数と応答変数の関係について説明していただけますか?
金
2.応答変数を予測しますか?
目的に応じて、 「R 2 乗の適切な値はどれくらいですか?」という質問に対する答えは異なります。 」とは異なります。
予測変数と応答変数の関係を説明する
回帰モデルの主な目的が、予測変数と応答変数の間の関係を説明することである場合、R 二乗は事実上無関係です。
たとえば、上記の回帰例で、予測母集団サイズの係数が 0.005 であり、統計的に有意であることがわかったとします。これは、人口が 1 増加すると、特定の都市の花屋の数が平均 0.005 増加することを意味します。さらに、人口規模は、都市内の花屋の数を示す統計的に重要な指標です。
この回帰モデルの R 二乗値が 0.2 であっても 0.9 であっても、この解釈は変わりません。単に人口サイズと花屋の数の関係に興味があるだけなので、モデルの R 二乗値についてあまり心配する必要はありません。
応答変数を予測する
主な目標が、予測変数を使用して応答変数の値を正確に予測することである場合、R 二乗は重要です。
一般に、R 二乗値が大きいほど、予測変数は応答変数の値をより正確に予測できます。
R 二乗値に必要な値は、必要な精度によって異なります。たとえば、科学的研究では、回帰モデルが信頼できるとみなされるためには、R 二乗が 0.95 より大きいことが必要な場合があります。他の領域では、データセットに極端な変動がある場合、R 二乗値が 0.3 だけで十分な場合があります。
何が「適切な」R 二乗値とみなされるかを知るには、特定の研究分野でどのような R 二乗値が一般的に受け入れられているかを調べる必要があります。クライアントまたは会社のために回帰分析を実行している場合は、許容可能な R 二乗値がどの程度であると考えられるかを尋ねることができるかもしれません。
予測間隔
予測間隔は、予測変数の値に基づいて、新しい観測が該当する範囲を指定します。予測間隔が狭いほど、予測変数が応答変数をより正確に予測できることを示します。
多くの場合、予測間隔は、新しい観測値が含まれる可能性のある値の正確な範囲を提供するため、R 二乗値よりも役立ちます。これは、回帰の主な目的が応答変数の新しい値を予測することである場合に特に役立ちます。
たとえば、人口が 40,000 人で、特定の都市の花屋の予測間隔が 30 ~ 35 になると仮定します。これは、回帰モデルの使用に応じて、値の許容範囲とみなされる場合とみなされない場合があります。
結論
一般に、R 二乗値が大きいほど、予測変数は応答変数の値をより正確に予測できます。
R 二乗値がどの程度優れていれば「良好」とみなされるかは、ドメインによって異なります。一部のフィールドでは、他のフィールドよりも高い精度が必要です。
何が「適切な」R 二乗値とみなされるかを調べるには、自分が取り組んでいる分野で一般に受け入れられているものを検討するか、特定の分野の特定の知識を持つ人に尋ねるか、クライアント/クライアントに尋ねます。回帰分析を実行している会社。彼らが許容できると考えるものに対して。
予測変数と応答変数の間の関係を説明したい場合、R 二乗は回帰モデルの解釈に影響を及ぼさないため、R 二乗はほとんど意味がありません。
応答変数を予測する場合は、一般に R 二乗値よりも予測区間の方が役立ちます。
参考文献: