ロジスティック回帰モデルの c 統計を解釈する方法


このチュートリアルでは、ロジスティック回帰モデルのC 統計を解釈する方法について簡単に説明します。

ロジスティック回帰とは何ですか?

ロジスティック回帰は、応答変数がバイナリの場合に回帰モデルを近似するために使用する統計手法です。ロジスティック回帰の使用例をいくつか示します。

  • 私たちは、運動、食事、体重が心臓発作の可能性にどのような影響を与えるかを知りたいと考えています。応答変数は心臓発作であり、心臓発作が起こるか起こらないかという 2 つの潜在的な結果があります。
  • GPA、ACT スコア、および受講した AP コースの数が、特定の大学に合格する可能性にどのような影響を与えるかを知りたいと考えています。応答変数は受け入れであり、受け入れられるか受け入れられないという 2 つの潜在的な結果があります。
  • 私たちは、単語数と電子メールのタイトルが電子メールがスパムである可能性に影響を与えるかどうかを知りたいと考えています。応答変数はスパムであり、スパムか非スパムかの 2 つの結果が考えられます。

予測変数は数値変数またはカテゴリ変数であることに注意してください。重要なのは、応答変数がバイナリであるということです。この場合、ロジスティック回帰は、予測変数と応答変数の間の関係を説明するために使用するのに適切なモデルです。

ロジスティック回帰モデルの適切性を評価する方法

ロジスティック回帰モデルをデータセットに適合させると、多くの場合、モデルがデータにどの程度適合するかに関心が高まります。具体的には、ポジティブな結果とネガティブな結果を正確に予測するモデルの能力に興味があります。

感度とは、結果が実際に肯定的である場合に、モデルが観察に対して肯定的な結果を予測する確率を指します。

特異性とは、結果が実際には陰性である場合に、モデルが観察に対して陰性の結果を予測する確率を指します。

ロジスティック回帰モデルは、感度と特異度が 100% であれば、観測値を分類するのに最適ですが、実際にはこれが起こることはほとんどありません。

ロジスティック回帰モデルを適合させたら、それを使用して、予測変数の値に基づいて、特定の観察が肯定的な結果をもたらす確率を計算できます。

観測値を陽性として分類するかどうかを決定するには、調整された確率がしきい値を超える観測値が陽性として分類され、調整された確率がしきい値を下回るすべての観測値が陰性として分類されるように、しきい値を選択できます。 。

たとえば、しきい値として 0.5 を選択するとします。これは、調整された確率が 0.5 より大きい観測値は陽性の結果を持ち、調整された確率が 0.5 以下の観測値は陰性の結果をもたらすことを意味します。

ROC 曲線のプロット

モデルの感度と特異度を視覚化する最も一般的な方法の 1 つは、受信者動作特性 ( ROC )曲線をプロットすることです。これは、感度値としきい値としての特異度 1 のプロットです。ポイントは 0 から 1 に変わります。

感度と特異性が高いモデルは、プロットの左上隅に適合する ROC 曲線を持ちます。感度と特異性が低いモデルは、対角 45 度に近い曲線になります。

AUC (曲線下面積)は、肯定的な結果と否定的な結果を区別するモデルの能力のアイデアを与えてくれます。 AUC の範囲は 0 から 1 です。AUC が高いほど、モデルは結果を正しく分類できます。

これは、プロットの左上隅に沿った ROC 曲線を持つモデルは曲線の下の面積が大きいため、結果を正しく分類するのに優れたモデルであることを意味します。逆に、45 度の対角線に沿う ROC 曲線を持つモデルは、曲線の下の面積が小さいため、結果を分類するのに適切な機能を持たないモデルになります。

C 統計を理解する

c 統計量(一致統計量)は、AUC (曲線下面積) に等しく、次の解釈があります。

  • 0.5 未満の値は、モデルが不十分であることを示します。
  • 値 0.5 は、モデルが結果の分類においては偶然よりも優れているわけではないことを示します。
  • 値が 1 に近づくほど、モデルは結果をより正確に分類できます。
  • 値 1 は、モデルが結果の分類に最適であることを意味します。

したがって、C 統計は、モデルが結果を正しく分類するのにどの程度効果的であるかを知ることができます。

臨床現場では、考えられる個人のすべてのペア、つまり陽性結果を経験した個人と陰性結果を経験した個人を取得することによって C 統計量を計算することが可能です。次に、c 統計量は、肯定的な結果を経験した個人の方が、肯定的な結果を経験しなかった個人よりもその結果を経験する予測確率が高いペアの割合として計算できます。

たとえば、年齢血圧などの予測変数を使用してロジスティック回帰モデルを当てはめて、心臓発作の可能性を予測するとします。

モデルの c 統計量を見つけるために、心臓発作を起こした個人と心臓発作を起こしていない個人からなる個人の考えられるすべてのペアを特定することができました。次に、c 統計量は、心臓発作を起こした個人が、心臓発作を起こさなかった個人と比較して実際に心臓発作を起こす予測確率が高いこれらのペアの割合として計算できます。心臓発作。

結論

この記事では次のことを学びました。

  • ロジスティック回帰は、応答変数がバイナリの場合に回帰モデルを近似するために使用する統計手法です。
  • ロジスティック回帰モデルの適合度を評価するには、モデルが結果をどの程度正確に分類できるかを示す感度特異度を調べることができます。
  • 感度と特異度を視覚化するために、 ROC 曲線を作成できます。
  • AUC (曲線下面積) は、モデルが結果をどの程度正確に分類できるかを示します。 ROC 曲線がプロットの左上隅にある場合、モデルが結果を正常に分類していることを示します。
  • c 統計量は AUC (曲線下面積) に等しく、考えられる個人のすべてのペア、つまり陽性結果を経験した個人と陰性結果を経験した個人を取ることによって計算することもできます。 c 統計量は、ポジティブな結果を経験した個人の方が、ポジティブな結果を経験しなかった個人よりもその結果を経験する予測確率が高いペアの割合です。
  • C 統計が 1 に近づくほど、モデルは結果をより正確に分類できます。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です